論文の概要: Seen2Scene: Completing Realistic 3D Scenes with Visibility-Guided Flow
- arxiv url: http://arxiv.org/abs/2603.28548v1
- Date: Mon, 30 Mar 2026 15:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.466689
- Title: Seen2Scene: Completing Realistic 3D Scenes with Visibility-Guided Flow
- Title(参考訳): Seen2Scene: 可視性誘導フローでリアルな3Dシーンを補完する
- Authors: Quan Meng, Yujin Chen, Lei Li, Matthias Nießner, Angela Dai,
- Abstract要約: Seen2Sceneは、シーンの完成と生成のために、不完全で現実世界の3Dスキャンをトレーニングする最初のフローマッチングベースのアプローチである。
Seen2Sceneは、現実世界の非完全な3Dスキャンから直接学習することで、複雑で散らかった実環境のためのリアルな3Dシーン補完を可能にする。
- 参考スコア(独自算出の注目度): 80.05357398241574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Seen2Scene, the first flow matching-based approach that trains directly on incomplete, real-world 3D scans for scene completion and generation. Unlike prior methods that rely on complete and hence synthetic 3D data, our approach introduces visibility-guided flow matching, which explicitly masks out unknown regions in real scans, enabling effective learning from real-world, partial observations. We represent 3D scenes using truncated signed distance field (TSDF) volumes encoded in sparse grids and employ a sparse transformer to efficiently model complex scene structures while masking unknown regions. We employ 3D layout boxes as an input conditioning signal, and our approach is flexibly adapted to various other inputs such as text or partial scans. By learning directly from real-world, incomplete 3D scans, Seen2Scene enables realistic 3D scene completion for complex, cluttered real environments. Experiments demonstrate that our model produces coherent, complete, and realistic 3D scenes, outperforming baselines in completion accuracy and generation quality.
- Abstract(参考訳): Seen2Sceneは、シーンの完成と生成のために、不完全で現実世界の3Dスキャンを直接訓練する最初のフローマッチングベースのアプローチである。
完全かつ従って合成された3Dデータに依存する従来の手法とは異なり、我々の手法は視認誘導フローマッチングを導入し、実際のスキャンで未知の領域を隠蔽し、実世界の部分的な観察から効果的な学習を可能にする。
本研究では,スパースグリッドに符号化されたTSDFボリュームを用いて3次元シーンを表現し,未知領域をマスキングしながら複雑なシーン構造を効率的にモデル化するスパーストランスフォーマを用いた。
入力条件信号として3Dレイアウトボックスを用い,テキストや部分スキャンなどの様々な入力に柔軟に適用する。
Seen2Sceneは、現実世界の非完全な3Dスキャンから直接学習することで、複雑で散らかった実環境のためのリアルな3Dシーン補完を可能にする。
実験により,本モデルが整合性,完全,リアルな3Dシーンを生成し,完成精度と生成品質においてベースラインを上回っていることが示された。
関連論文リスト
- MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection [24.611196145977022]
現在のモノクラー3D検出器は、現実世界のデータセットの多様性とスケールに制限されている。
物体の位置や位置は、有効な3次元単分子検出器の訓練に必要不可欠であることを示す。
現実的な拡張を実現するために,3Dシーンコンテンツを考慮した新しいシステムであるMonoPlace3Dを紹介する。
論文 参考訳(メタデータ) (2025-04-09T11:47:48Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans [20.030706182672144]
そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。
提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。
実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-04-19T14:49:31Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。