論文の概要: CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.03045v1
- Date: Tue, 02 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.026624
- Title: CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models
- Title(参考訳): CAMEO:多視点拡散モデルにおける対応アテンションアライメント
- Authors: Minkyung Kwon, Jinhyeok Choi, Jiho Park, Seonghu Jeon, Jinhyuk Jang, Junyoung Seo, Minseop Kwak, Jin-Hwa Kim, Seungryong Kim,
- Abstract要約: マルチビュー拡散モデルは、近年、新しいビュー合成の強力なパラダイムとして出現している。
本稿では,幾何学的対応を用いた注意図を直接監督する学習手法であるCAMEOを紹介する。
CAMEOはモデルに依存しず,任意の多視点拡散モデルに適用可能であることを実証する。
- 参考スコア(独自算出の注目度): 40.39688162159242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view diffusion models have recently emerged as a powerful paradigm for novel view synthesis, yet the underlying mechanism that enables their view-consistency remains unclear. In this work, we first verify that the attention maps of these models acquire geometric correspondence throughout training, attending to the geometrically corresponding regions across reference and target views for view-consistent generation. However, this correspondence signal remains incomplete, with its accuracy degrading under large viewpoint changes. Building on these findings, we introduce CAMEO, a simple yet effective training technique that directly supervises attention maps using geometric correspondence to enhance both the training efficiency and generation quality of multi-view diffusion models. Notably, supervising a single attention layer is sufficient to guide the model toward learning precise correspondences, thereby preserving the geometry and structure of reference images, accelerating convergence, and improving novel view synthesis performance. CAMEO reduces the number of training iterations required for convergence by half while achieving superior performance at the same iteration counts. We further demonstrate that CAMEO is model-agnostic and can be applied to any multi-view diffusion model.
- Abstract(参考訳): マルチビュー拡散モデルは、近年、新しいビュー合成の強力なパラダイムとして登場したが、ビュー整合性を実現する基盤となるメカニズムはいまだ不明である。
そこで本研究では,これらのモデルのアテンションマップが,参照及び目標ビューをまたいだ幾何学的対応領域に従属して,学習を通して幾何学的対応を得ることを確認した。
しかし、この対応信号は依然として不完全であり、その精度は大きな視点変化の下で劣化する。
これらの知見に基づいて,多視点拡散モデルのトレーニング効率と生成品質を両立させるため,幾何対応を用いたアテンションマップを直接監視する,シンプルで効果的なトレーニング手法であるCAMEOを紹介した。
特に、単一の注意層を監督することは、モデルを正確な対応学習に向けて導くのに十分であり、したがって参照画像の形状と構造を保存し、収束を加速し、新規なビュー合成性能を向上させる。
CAMEOは、コンバージェンスに必要なトレーニングイテレーションの数を半分に減らし、同じイテレーション数で優れたパフォーマンスを達成する。
さらに、CAMEOはモデルに依存しず、任意の多視点拡散モデルに適用可能であることを実証する。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Learning Diffusion Models with Flexible Representation Guidance [49.26046407886349]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image [3.4248731707266264]
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。
我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。
本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
論文 参考訳(メタデータ) (2025-06-30T05:00:47Z) - Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。