Fugu-MT 論文翻訳(概要): Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments

論文の概要: Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments

arxiv url: http://arxiv.org/abs/2103.16095v1
Date: Tue, 30 Mar 2021 05:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-31 15:09:16.037960
Title: Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments
Title（参考訳）: パノプティカルマッピングとCADモデルアライメントによるインタラクティブ3次元シーンの再構築
Authors: Muzhi Han, Zeyu Zhang, Ziyuan Jiao, Xu Xie, Yixin Zhu, Song-Chun Zhu, Hangxin Liu
Abstract要約: エンボディエージェントの観点から,シーン再構築の問題を再考する。 rgb-dデータストリームを用いてインタラクティブシーンを再構築する。この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
参考スコア（独自算出の注目度）: 81.38641691636847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we rethink the problem of scene reconstruction from an embodied agent's perspective: While the classic view focuses on the reconstruction accuracy, our new perspective emphasizes the underlying functions and constraints such that the reconstructed scenes provide \em{actionable} information for simulating \em{interactions} with agents. Here, we address this challenging problem by reconstructing an interactive scene using RGB-D data stream, which captures (i) the semantics and geometry of objects and layouts by a 3D volumetric panoptic mapping module, and (ii) object affordance and contextual relations by reasoning over physical common sense among objects, organized by a graph-based scene representation. Crucially, this reconstructed scene replaces the object meshes in the dense panoptic map with part-based articulated CAD models for finer-grained robot interactions. In the experiments, we demonstrate that (i) our panoptic mapping module outperforms previous state-of-the-art methods, (ii) a high-performant physical reasoning procedure that matches, aligns, and replaces objects' meshes with best-fitted CAD models, and (iii) reconstructed scenes are physically plausible and naturally afford actionable interactions; without any manual labeling, they are seamlessly imported to ROS-based simulators and virtual environments for complex robot task executions.
Abstract（参考訳）: 本稿では,エージェントの視点からシーン復元の問題を再考する:古典的視点は再構成精度に焦点をあてるが,新しい視点では,再構成されたシーンがエージェントと<em{interactions}をシミュレートするための<em{actionable}情報を提供するような,基本的な機能と制約を強調している。本稿では,rgb-dデータストリームを用いてインタラクティブなシーンを再構成し,(i)3次元ボリュームパノタイプマッピングモジュールによってオブジェクトとレイアウトの意味と形状をキャプチャし,(ii)グラフベースのシーン表現によって整理されたオブジェクト間の物理的共通感覚を推論することにより,オブジェクトのアフォーマンスとコンテクストの関係を捉えることで,この課題を解決する。重要なことに、この再構成されたシーンは、密集したパノプティクスマップのオブジェクトメッシュを、よりきめ細かなロボットインタラクションのための部分ベースのCADモデルに置き換える。実験では,<i>Panoptic mapping module</i>が従来の最先端手法より優れており,(ii)オブジェクトのメッシュと最適なCADモデルとの整合,整合,置換を行う高性能な物理的推論手順,(iii)再構成シーンは物理的に可視であり,自然に動作可能な相互作用が可能であること,(iii)手動ラベリングなしではROSベースのシミュレータや複雑なロボットタスクの実行環境にシームレスにインポートされることを示した。

関連論文リスト

Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT [10.984522161856955]
3D再構成は、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術だ。ディープラーニングは、3D再構築におけるパラダイムシフトを触媒している。新しいモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像から直接推測する。
論文参考訳（メタデータ） (2025-07-11T09:41:54Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文参考訳（メタデータ） (2025-06-04T07:36:33Z)
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文参考訳（メタデータ） (2025-02-18T14:29:52Z)
Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling [27.577720075952225]
ダイオラマ(Diorama)は、単視点のRGB観測から3Dシーンをモデル化する世界初のゼロショットオープンワールドシステムである。この問題をサブタスクに分解し、それぞれに堅牢で一般化可能な解を導入することで、我々のアプローチの実現可能性を示す。
論文参考訳（メタデータ） (2024-11-29T06:19:04Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References [49.71130133080821]
MaRINeRは、近くのマッピング画像の情報を活用して、ターゲット視点のレンダリングを改善する方法である。暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
論文参考訳（メタデータ） (2024-07-18T17:50:03Z)
Simultaneous Map and Object Reconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。我々は、最近の新しいビュー合成法から着想を得て、大域的な最適化として再構築問題を提起する。連続動作の慎重なモデリングにより, 回転するLiDARセンサの回転シャッター効果を補うことができる。
論文参考訳（メタデータ） (2024-06-19T23:53:31Z)
Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文参考訳（メタデータ） (2024-03-28T11:12:33Z)
Interaction-Driven Active 3D Reconstruction with Object Interiors [17.48872400701787]
本稿では,視覚認識,ロボットと物体の相互作用,および3Dスキャンを統合したアクティブな3次元再構成手法を提案する。本手法は,RGBDセンサを内蔵したFetchロボットによって自動的に動作させる。
論文参考訳（メタデータ） (2023-10-23T08:44:38Z)
Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文参考訳（メタデータ） (2022-08-04T14:13:35Z)
Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文参考訳（メタデータ） (2020-08-12T01:23:21Z)
SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans [24.06640371472068]
本稿では,コモディティRGB-Dセンサからスキャンした3D環境の軽量CADによる表現を再構築する手法を提案する。私たちのキーとなるアイデアは、CADモデルのアライメントとスキャンされたシーンのレイアウト推定の両方を共同で最適化することです。
論文参考訳（メタデータ） (2020-03-27T20:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。