論文の概要: Debiasing Diffusion Priors via 3D Attention for Consistent Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2512.07345v2
- Date: Tue, 16 Dec 2025 14:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.895149
- Title: Debiasing Diffusion Priors via 3D Attention for Consistent Gaussian Splatting
- Title(参考訳): 連続型ガウススプラッティングにおける3次元注意による拡散の偏り
- Authors: Shilong Jin, Haoran Duan, Litao Hua, Wentao Huang, Yuan Zhou,
- Abstract要約: 本稿では、2つのキーコンポーネントを介して複数ビューの不整合に対処する新しいフレームワークTD-Attnを提案する。
TD-Attnはユニバーサルプラグインとして機能する可能性があり、3Dタスク間のマルチビュー一貫性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 10.320439319212463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Versatile 3D tasks (e.g., generation or editing) that distill from Text-to-Image (T2I) diffusion models have attracted significant research interest for not relying on extensive 3D training data. However, T2I models exhibit limitations resulting from prior view bias, which produces conflicting appearances between different views of an object. This bias causes subject-words to preferentially activate prior view features during cross-attention (CA) computation, regardless of the target view condition. To overcome this limitation, we conduct a comprehensive mathematical analysis to reveal the root cause of the prior view bias in T2I models. Moreover, we find different UNet layers show different effects of prior view in CA. Therefore, we propose a novel framework, TD-Attn, which addresses multi-view inconsistency via two key components: (1) the 3D-Aware Attention Guidance Module (3D-AAG) constructs a view-consistent 3D attention Gaussian for subject-words to enforce spatial consistency across attention-focused regions, thereby compensating for the limited spatial information in 2D individual view CA maps; (2) the Hierarchical Attention Modulation Module (HAM) utilizes a Semantic Guidance Tree (SGT) to direct the Semantic Response Profiler (SRP) in localizing and modulating CA layers that are highly responsive to view conditions, where the enhanced CA maps further support the construction of more consistent 3D attention Gaussians. Notably, HAM facilitates semantic-specific interventions, enabling controllable and precise 3D editing. Extensive experiments firmly establish that TD-Attn has the potential to serve as a universal plugin, significantly enhancing multi-view consistency across 3D tasks.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルから抽出するバーサタイルな3Dタスク(生成や編集など)は、広範囲な3Dトレーニングデータに依存しないという点で大きな研究関心を集めている。
しかし、T2Iモデルは、事前のビューバイアスから生じる限界を示し、オブジェクトの異なるビュー間で矛盾する外観を生成する。
このバイアスは、対象のビュー条件に関わらず、クロスアテンション(CA)計算中に、主語が優先的に事前のビュー特徴を活性化させる。
この制限を克服するため、我々はT2Iモデルにおける先行ビューバイアスの根本原因を明らかにするために包括的な数学的解析を行う。
さらに、異なるUNet層は、CAにおける事前ビューの異なる効果を示す。
そこで,本研究では,(1)3D-Aware Attention Guidance Module(3D-AAG)が注目領域全体にわたる空間的一貫性を強制する主語に対して,ビュー一貫性のある3Dアテンションガウスを構築することによって,2次元個別視点CAマップにおける限られた空間情報を補償するTD-Attnを提案し,(2)階層的アテンション変調モジュール(HAM)はセマンティックガイダンスツリー(SGT)を用いて,セマンティック応答プロファイラ(SRP)を局部化・調整する。
特に、HAMは意味特異的な介入を促進し、制御可能で正確な3D編集を可能にする。
大規模な実験は、TD-Attnが普遍的なプラグインとして機能し、3Dタスク間の多視点一貫性を大幅に向上させる可能性を確実に証明している。
関連論文リスト
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - CaRF: Enhancing Multi-View Consistency in Referring 3D Gaussian Splatting Segmentation [20.561664000265765]
Referring 3D Gaussian Splatting (R3DGS)は、自由形式の言語表現を解釈し、ガウスのフィールドで対応する3D領域をローカライズすることを目的としている。
既存のパイプラインは、言語と3D幾何の間のクロスモーダルアライメントに苦戦している。
本稿では,3次元ガウス空間で直接動作し,マルチビューの整合性を実現するフレームワークであるCamera Aware Referring Field (CaRF)を提案する。
この研究は、より信頼性が高く、一貫性のある3Dシーン理解を促進する。
論文 参考訳(メタデータ) (2025-11-06T02:24:04Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - ORA3D: Overlap Region Aware Multi-view 3D Object Detection [11.58746596768273]
現在の多視点3Dオブジェクト検出法は、しばしば重なり合う領域のオブジェクトを適切に検出できない。
本稿では,(1)弱深度スーパービジョンのステレオ異方性推定と(2)適応オーバーラップ領域判別器の2つの主要なモジュールを提案する。
提案手法は,現在の最先端モデル,すなわちDETR3DとBEVDetより優れている。
論文 参考訳(メタデータ) (2022-07-02T15:28:44Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。