論文の概要: Coupled Diffusion Sampling for Training-Free Multi-View Image Editing
- arxiv url: http://arxiv.org/abs/2510.14981v1
- Date: Thu, 16 Oct 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.014353
- Title: Coupled Diffusion Sampling for Training-Free Multi-View Image Editing
- Title(参考訳): 学習不要なマルチビュー画像編集のための結合拡散サンプリング
- Authors: Hadi Alzayer, Yunzhi Zhang, Chen Geng, Jia-Bin Huang, Jiajun Wu,
- Abstract要約: 事前訓練された2D画像編集モデルは、複数のビュー画像の集合において、各画像の高品質な編集を独立して生成することができるが、ビュー間の一貫性は維持されない。
本稿では,生成した2次元画像列を事前学習した多視点画像分布に適応するように制約することで,暗黙的な3次元正規化手法を提案する。
これは、多視点画像分布と2次元編集画像分布の両方から2つの軌跡を同時にサンプリングする単純な拡散サンプリング技術である。
- 参考スコア(独自算出の注目度): 27.884718441352387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an inference-time diffusion sampling method to perform multi-view consistent image editing using pre-trained 2D image editing models. These models can independently produce high-quality edits for each image in a set of multi-view images of a 3D scene or object, but they do not maintain consistency across views. Existing approaches typically address this by optimizing over explicit 3D representations, but they suffer from a lengthy optimization process and instability under sparse view settings. We propose an implicit 3D regularization approach by constraining the generated 2D image sequences to adhere to a pre-trained multi-view image distribution. This is achieved through coupled diffusion sampling, a simple diffusion sampling technique that concurrently samples two trajectories from both a multi-view image distribution and a 2D edited image distribution, using a coupling term to enforce the multi-view consistency among the generated images. We validate the effectiveness and generality of this framework on three distinct multi-view image editing tasks, demonstrating its applicability across various model architectures and highlighting its potential as a general solution for multi-view consistent editing.
- Abstract(参考訳): 本稿では,事前学習した2次元画像編集モデルを用いて,マルチビュー一貫した画像編集を行うための推定時間拡散サンプリング手法を提案する。
これらのモデルは、3Dシーンやオブジェクトの複数ビューイメージの集合において、各画像の高品質な編集を独立して生成することができるが、ビュー間の一貫性は維持されない。
既存のアプローチは通常、明示的な3D表現を最適化することでこの問題に対処するが、それらは長い最適化プロセスとスパースビュー設定下での不安定さに悩まされる。
本稿では,生成した2次元画像列を事前学習した多視点画像分布に適応するように制約することで,暗黙的な3次元正規化手法を提案する。
これは、多視点画像分布と2次元編集画像分布の両方から2つの軌跡を同時にサンプリングする単純な拡散サンプリング技術である、結合項を用いて、生成した画像間の多視点一貫性を強制する。
我々は,3つの異なるマルチビュー画像編集タスクにおいて,このフレームワークの有効性と汎用性を検証し,様々なモデルアーキテクチャに適用可能性を示し,マルチビュー一貫した編集のための汎用ソリューションとしての可能性を強調した。
関連論文リスト
- MEt3R: Measuring Multi-View Consistency in Generated Images [47.152540564255204]
本稿では,生成画像におけるマルチビュー一貫性の指標であるMEt3Rを紹介する。
提案手法では,DUSt3Rを用いて画像対から高密度な3次元再構成をフィードフォワード方式で行う。
論文 参考訳(メタデータ) (2025-01-10T20:43:33Z) - Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。