論文の概要: Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering
- arxiv url: http://arxiv.org/abs/2502.00342v2
- Date: Fri, 08 Aug 2025 07:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.084023
- Title: Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering
- Title(参考訳): 3次元理解のための身体情報:3次元質問応答に関する調査
- Authors: Zechuan Li, Hongshan Yu, Yihao Ding, Yan Li, Yong He, Naveed Akhtar,
- Abstract要約: 3D Scene Question Answeringは、3D視覚認識と自然言語処理を統合した学際的なタスクである。
大規模マルチモーダルモデリングの最近の進歩は、多様なデータセットの作成を促している。
われわれは3D SQAの総合的かつ体系的なレビューを行った。
- 参考スコア(独自算出の注目度): 28.717312557697376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Scene Question Answering (3D SQA) represents an interdisciplinary task that integrates 3D visual perception and natural language processing, empowering intelligent agents to comprehend and interact with complex 3D environments. Recent advances in large multimodal modelling have driven the creation of diverse datasets and spurred the development of instruction-tuning and zero-shot methods for 3D SQA. However, this rapid progress introduces challenges, particularly in achieving unified analysis and comparison across datasets and baselines. In this survey, we provide the first comprehensive and systematic review of 3D SQA. We organize existing work from three perspectives: datasets, methodologies, and evaluation metrics. Beyond basic categorization, we identify shared architectural patterns across methods. Our survey further synthesizes core limitations and discusses how current trends, such as instruction tuning, multimodal alignment, and zero-shot, can shape future developments. Finally, we propose a range of promising research directions covering dataset construction, task generalization, interaction modeling, and unified evaluation protocols. This work aims to serve as a foundation for future research and foster progress toward more generalizable and intelligent 3D SQA systems.
- Abstract(参考訳): 3D Scene Question Answering (3D SQA)は、3D視覚認識と自然言語処理を統合し、知的エージェントに複雑な3D環境を理解・相互作用させる、学際的なタスクである。
大規模マルチモーダルモデリングの最近の進歩により、多様なデータセットの作成が促進され、3D SQAのための命令チューニングとゼロショット手法の開発が加速された。
しかし、この急激な進歩は、特にデータセットとベースラインをまたいだ統合分析と比較を達成する上での課題をもたらす。
本調査では,3D SQAの総合的および体系的レビューを行った。
既存の作業は、データセット、方法論、評価メトリクスの3つの視点から整理します。
基本的な分類以外にも、メソッド間で共有されるアーキテクチャパターンを特定します。
本調査では, 基本的制約をさらに整理し, 指導調律, マルチモーダルアライメント, ゼロショットといった現在の傾向が今後の発展にどう影響するかを考察する。
最後に,データセットの構築,タスクの一般化,インタラクションモデリング,統合評価プロトコルに関する,有望な研究方向性について述べる。
この研究は、将来の研究の基盤として機能し、より汎用的でインテリジェントな3D SQAシステムに向けた進歩を促進することを目的としている。
関連論文リスト
- 3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks [14.366478737339909]
医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。
本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:55:42Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。
ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。
私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文 参考訳(メタデータ) (2025-04-25T23:27:26Z) - Multi-modal Situated Reasoning in 3D Scenes [32.800524889357305]
大規模マルチモーダル位置推論データセットであるMSQA(Multi-modal Situated Question Answering)を提案する。
MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。
また,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションに対するモデルの位置的推論を評価する。
論文 参考訳(メタデータ) (2024-09-04T02:37:38Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T09:39:05Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。