論文の概要: StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces
- arxiv url: http://arxiv.org/abs/2501.15445v2
- Date: Sun, 02 Mar 2025 11:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:50.879099
- Title: StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces
- Title(参考訳): StochSync: 任意空間における画像生成のための確率拡散同期
- Authors: Kyeongmin Yeo, Jaihoon Kim, Minhyuk Sung,
- Abstract要約: 本稿では,事前学習した画像拡散モデルを用いて任意の空間で画像を生成する手法を提案する。
ゼロショット法は、画像条件付けと3Dメッシュ法の両方の長所を組み合わせたものである。
- 参考スコア(独自算出の注目度): 11.517082612850443
- License:
- Abstract: We propose a zero-shot method for generating images in arbitrary spaces (e.g., a sphere for 360{\deg} panoramas and a mesh surface for texture) using a pretrained image diffusion model. The zero-shot generation of various visual content using a pretrained image diffusion model has been explored mainly in two directions. First, Diffusion Synchronization-performing reverse diffusion processes jointly across different projected spaces while synchronizing them in the target space-generates high-quality outputs when enough conditioning is provided, but it struggles in its absence. Second, Score Distillation Sampling-gradually updating the target space data through gradient descent-results in better coherence but often lacks detail. In this paper, we reveal for the first time the interconnection between these two methods while highlighting their differences. To this end, we propose StochSync, a novel approach that combines the strengths of both, enabling effective performance with weak conditioning. Our experiments demonstrate that StochSync provides the best performance in 360{\deg} panorama generation (where image conditioning is not given), outperforming previous finetuning-based methods, and also delivers comparable results in 3D mesh texturing (where depth conditioning is provided) with previous methods.
- Abstract(参考訳): 本研究では,任意の空間(例えば,360{\deg}パノラマの球面とテクスチャのメッシュ面)における画像を生成するゼロショット法について,事前学習した画像拡散モデルを用いて提案する。
予め訓練された画像拡散モデルを用いて, 様々な視覚コンテンツをゼロショットで生成する手法を主に2方向から検討した。
第一に、拡散シンクロナイゼーションにより異なる射影空間を共同で反拡散し、かつ目標空間でそれらを同期させ、十分な条件が与えられたときに高品質な出力を生成するが、その欠如に苦慮する。
第2に、スコア蒸留サンプリング(Score Distillation Smpling)は、勾配降下反応によって目標空間データを徐々に更新するが、詳細を欠くことが多い。
本稿では,これらの2つの手法間の相互接続を初めて明らかにし,その相違点を明らかにした。
そこで本研究では,両者の強みを組み合わせた新しい手法であるStochSyncを提案する。
実験により、StochSyncは360{\deg}パノラマ生成において最高の性能を示し(画像条件が与えられない)、従来の微調整方式よりも優れた性能を示し、3Dメッシュのテクスチャ(奥行き条件が提供される)において従来の手法と同等の結果を提供する。
関連論文リスト
- ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization [5.55656676725821]
我々はConsistentDreamerを紹介し、まず、固定された複数ビュー前の画像とそれらの間のランダムなビューの集合を生成する。
これにより、SDSの損失によって導かれるビュー間の相違を抑え、一貫した粗い形状を確保する。
各イテレーションでは、生成した複数ビュー前の画像も詳細再構築に使用しています。
論文 参考訳(メタデータ) (2025-02-13T12:49:25Z) - SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - Synchronous Diffusion for Unsupervised Smooth Non-Rigid 3D Shape Matching [15.843208029973175]
非剛性3次元形状整合問題において,正則化として用いる同期拡散過程を提案する。
我々の新しい規則化は、特にトポロジカルノイズの存在下で、形状整合の最先端性を大幅に向上させることができることを実証する。
論文 参考訳(メタデータ) (2024-07-11T07:45:06Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - SyncTweedies: A General Generative Framework Based on Synchronized Diffusions [11.292617528150291]
正準空間を通した多重拡散過程の同期化のシナリオを網羅的に検討する。
我々は、Tweedieの公式の出力を、複数のインスタンス空間で denoising を行いながら平均化するという、未探索のケースを明らかにした。
上述した映像コンテンツを生成する実験では、SyncTweedies による生成の質が他の同期法と比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-03-21T12:57:30Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - CCD-3DR: Consistent Conditioning in Diffusion for Single-Image 3D
Reconstruction [81.98244738773766]
本稿では,一貫した局所的特徴条件付けのために,新しい集中拡散確率モデルを利用するCDD-3DRを提案する。
CCD-3DRは、40%以上の改善を伴い、全ての競合より大きなマージンを達成している。
論文 参考訳(メタデータ) (2023-08-15T15:27:42Z) - SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions [14.48564620768044]
複数の画像を縫い合わせると、しばしば目に見える縫い目になる。
最近の技術は複数の窓で共同拡散を行うことによってこの問題に対処しようとしている。
本稿では,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグイン・アンド・プレイモジュールSyncDiffusionを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:18:23Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。