論文の概要: R3DS: Reality-linked 3D Scenes for Panoramic Scene Understanding
- arxiv url: http://arxiv.org/abs/2403.12301v1
- Date: Mon, 18 Mar 2024 22:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 17:52:34.480734
- Title: R3DS: Reality-linked 3D Scenes for Panoramic Scene Understanding
- Title(参考訳): R3DS:パノラマシーン理解のためのリアルな3Dシーン
- Authors: Qirui Wu, Sonia Raychaudhuri, Daniel Ritchie, Manolis Savva, Angel X Chang,
- Abstract要約: 本稿では,Matterport3Dパノラマのリアルなシーン配置を反映した合成3Dシーンの3Dシーンデータセットについて紹介する。
R3DSは、パノラマにおける現実世界の観測に関連付けられたオブジェクトを持つ、より完全で人口密度の高いシーンを持っている。
- 参考スコア(独自算出の注目度): 27.740641364816266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Reality-linked 3D Scenes (R3DS) dataset of synthetic 3D scenes mirroring the real-world scene arrangements from Matterport3D panoramas. Compared to prior work, R3DS has more complete and densely populated scenes with objects linked to real-world observations in panoramas. R3DS also provides an object support hierarchy, and matching object sets (e.g., same chairs around a dining table) for each scene. Overall, R3DS contains 19K objects represented by 3,784 distinct CAD models from over 100 object categories. We demonstrate the effectiveness of R3DS on the Panoramic Scene Understanding task. We find that: 1) training on R3DS enables better generalization; 2) support relation prediction trained with R3DS improves performance compared to heuristically calculated support; and 3) R3DS offers a challenging benchmark for future work on panoramic scene understanding.
- Abstract(参考訳): 本稿では,Matterport3Dパノラマのリアルなシーン配置を反映した合成3Dシーンの3Dシーンデータセットについて紹介する。
以前の研究と比較すると、R3DSはパノラマにおける現実世界の観測に関連付けられたオブジェクトを持つ、より完全で人口密度の高いシーンを持っている。
R3DSはまた、各シーンに対するオブジェクトサポート階層とオブジェクトセット(例えばダイニングテーブルの周りの同じ椅子)も提供する。
R3DSには、100以上のカテゴリから3,784個のCADモデルで表される19Kオブジェクトが含まれている。
パノラマシーン理解作業におけるR3DSの有効性を示す。
以下に示す。
1) R3DS のトレーニングは、より良い一般化を可能にする。
2)R3DSで訓練されたサポート関係予測は、ヒューリスティックに計算されたサポートよりも性能を向上させる。
3) R3DSはパノラマシーン理解に関する今後の研究に挑戦的なベンチマークを提供する。
関連論文リスト
- Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation [33.91844305449863]
大規模なVQA-3DデータセットであるCLEVR3Dを提案する。
本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。
より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
論文 参考訳(メタデータ) (2021-12-22T06:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。