論文の概要: MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation
- arxiv url: http://arxiv.org/abs/2603.11633v1
- Date: Thu, 12 Mar 2026 07:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.952692
- Title: MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation
- Title(参考訳): MV-SAM3D:レイアウト対応3D生成のための適応多視点融合
- Authors: Baicheng Li, Dong Wu, Jun Li, Shunkai Zhou, Zecui Zeng, Lusong Li, Hongbin Zha,
- Abstract要約: MV-SAM3Dは、レイアウト対応の3D生成を多視点一貫性と物理的妥当性で拡張する、トレーニング不要のフレームワークである。
注意-エントロピー重み付けと可視性重み付けという2つの適応重み付け戦略を提案する。
標準的なベンチマークと実世界のマルチオブジェクトシーンの実験は、再構築の忠実度とレイアウトの妥当性を大きく改善したことを示している。
- 参考スコア(独自算出の注目度): 19.245305728103748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified 3D generation models have made remarkable progress in producing high-quality 3D assets from a single image. Notably, layout-aware approaches such as SAM3D can reconstruct multiple objects while preserving their spatial arrangement, opening the door to practical scene-level 3D generation. However, current methods are limited to single-view input and cannot leverage complementary multi-view observations, while independently estimated object poses often lead to physically implausible layouts such as interpenetration and floating artifacts. We present MV-SAM3D, a training-free framework that extends layout-aware 3D generation with multi-view consistency and physical plausibility. We formulate multi-view fusion as a Multi-Diffusion process in 3D latent space and propose two adaptive weighting strategies -- attention-entropy weighting and visibility weighting -- that enable confidence-aware fusion, ensuring each viewpoint contributes according to its local observation reliability. For multi-object composition, we introduce physics-aware optimization that injects collision and contact constraints both during and after generation, yielding physically plausible object arrangements. Experiments on standard benchmarks and real-world multi-object scenes demonstrate significant improvements in reconstruction fidelity and layout plausibility, all without any additional training. Code is available at https://github.com/devinli123/MV-SAM3D.
- Abstract(参考訳): 最近の統合された3D生成モデルは、単一の画像から高品質な3Dアセットを生産する際、顕著な進歩を遂げている。
特に、SAM3Dのようなレイアウトを意識したアプローチは、空間的配置を維持しながら複数のオブジェクトを再構築し、実際のシーンレベルの3D生成に扉を開くことができる。
しかし、現在の手法はシングルビュー入力に限られており、補完的な多視点観測を利用できないが、独立に推定されたオブジェクトのポーズは、相互接続や浮動小道具のような物理的に不確実なレイアウトにつながることが多い。
MV-SAM3Dは、レイアウト対応の3D生成を多視点一貫性と物理的妥当性で拡張する、トレーニング不要のフレームワークである。
我々は、3次元潜在空間における多次元拡散過程として多視点融合を定式化し、その局所的な観測信頼性に応じて各視点が寄与することを確実にする2つの適応重み付け戦略(注意-エントロピー重み付けと可視重み付け)を提案する。
多目的合成では, 衝突と接触の制約を発生時と発生時の両方に注入し, 物理的に妥当な物体配置を与える物理認識最適化を導入する。
標準的なベンチマークと実世界のマルチオブジェクトシーンの実験では、再構築の忠実度とレイアウトの妥当性が大幅に向上した。
コードはhttps://github.com/devinli123/MV-SAM3Dで入手できる。
関連論文リスト
- Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。
私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。
推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文 参考訳(メタデータ) (2025-12-12T18:59:51Z) - MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models [40.57348732287596]
室内3次元シーンのための制御可能なノベルビュー合成(NVS)パイプラインであるMVRoomを紹介する。
MVRoomは2段階の設計を採用し、3Dレイアウトを多視点整合性を強制するために使用した。
論文 参考訳(メタデータ) (2025-12-03T20:33:18Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - BAG: Body-Aligned 3D Wearable Asset Generation [59.7545477546307]
BagはBody-aligned Asset Generation(ボディ・アセット・ジェネレーション・ジェネレーション)と呼ばれ、3Dウェアラブル・アセットを出力する。
その結果, 画像のプロンプト追従能力, 形状の多様性, 形状品質の点で, 既存の手法に比べて大きな優位性を示した。
論文 参考訳(メタデータ) (2025-01-27T16:23:45Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。