論文の概要: EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI
- arxiv url: http://arxiv.org/abs/2312.16170v1
- Date: Tue, 26 Dec 2023 18:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:37:20.794492
- Title: EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI
- Title(参考訳): EmbodiedScan:Embodied AIに向けたホロスティックなマルチモーダル3D知覚スイート
- Authors: Tai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, Peisen
Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua
Lin, Jiangmiao Pang
- Abstract要約: EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
- 参考スコア(独自算出の注目度): 88.03089807278188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the realm of computer vision and robotics, embodied agents are expected to
explore their environment and carry out human instructions. This necessitates
the ability to fully understand 3D scenes given their first-person observations
and contextualize them into language for interaction. However, traditional
research focuses more on scene-level input and output setups from a global
view. To address the gap, we introduce EmbodiedScan, a multi-modal, ego-centric
3D perception dataset and benchmark for holistic 3D scene understanding. It
encompasses over 5k scans encapsulating 1M ego-centric RGB-D views, 1M language
prompts, 160k 3D-oriented boxes spanning over 760 categories, some of which
partially align with LVIS, and dense semantic occupancy with 80 common
categories. Building upon this database, we introduce a baseline framework
named Embodied Perceptron. It is capable of processing an arbitrary number of
multi-modal inputs and demonstrates remarkable 3D perception capabilities, both
within the two series of benchmarks we set up, i.e., fundamental 3D perception
tasks and language-grounded tasks, and in the wild. Codes, datasets, and
benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.
- Abstract(参考訳): コンピュータビジョンとロボット工学の分野では、エンボディエージェントが環境を探索し、人間の指示を実行することが期待されている。
これにより、ファーストパーソンの観察から3dシーンを完全に理解し、対話のための言語にコンテキスト化することができる。
しかし、伝統的な研究は、グローバルな視点からのシーンレベルの入力と出力の設定に焦点を当てている。
このギャップに対処するために,マルチモーダルなego中心の3d知覚データセットであるembodiedscanと,全体的3dシーン理解のためのベンチマークを紹介する。
1mのego中心のrgb-dビュー、1m言語プロンプト、760以上のカテゴリにまたがる160kの3d指向ボックスをカプセル化した5kスキャンで、そのうちのいくつかはlvisと部分的に一致する。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、私たちが設定した2つのベンチマーク、すなわち基本的な3D知覚タスクと言語基底タスク、およびワイルドの両方において、注目すべき3D知覚能力を示す。
コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/EmbodiedScan.comから入手できる。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。