Fugu-MT 論文翻訳(概要): Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering

論文の概要: Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering

arxiv url: http://arxiv.org/abs/2502.00342v1
Date: Sat, 01 Feb 2025 07:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.659077
Title: Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering
Title（参考訳）: 3次元理解のための身体情報:3次元質問応答に関する調査
Authors: Zechuan Li, Hongshan Yu, Yihao Ding, Yan Li, Yong He, Naveed Akhtar,
Abstract要約: 3D Scene Question Answeringは、3D視覚認識と自然言語処理を統合した学際的なタスクである。大規模マルチモーダルモデリングの最近の進歩は、多様なデータセットの作成を促し、3D SQAのための命令チューニングとゼロショット手法の開発を加速させた。本稿では,3D SQAを総合的に調査し,データセット,方法論,評価指標を体系的に検討する。
参考スコア（独自算出の注目度）: 28.717312557697376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D Scene Question Answering (3D SQA) represents an interdisciplinary task that integrates 3D visual perception and natural language processing, empowering intelligent agents to comprehend and interact with complex 3D environments. Recent advances in large multimodal modelling have driven the creation of diverse datasets and spurred the development of instruction-tuning and zero-shot methods for 3D SQA. However, this rapid progress introduces challenges, particularly in achieving unified analysis and comparison across datasets and baselines. This paper presents the first comprehensive survey of 3D SQA, systematically reviewing datasets, methodologies, and evaluation metrics while highlighting critical challenges and future opportunities in dataset standardization, multimodal fusion, and task design.
Abstract（参考訳）: 3D Scene Question Answering (3D SQA)は、3D視覚認識と自然言語処理を統合し、知的エージェントに複雑な3D環境を理解・相互作用させる、学際的なタスクである。大規模マルチモーダルモデリングの最近の進歩は、多様なデータセットの作成を促し、3D SQAのための命令チューニングとゼロショット手法の開発を加速させた。しかし、この急激な進歩は、特にデータセットとベースラインをまたいだ統合分析と比較を達成する上での課題をもたらす。本稿では,データセットの標準化,マルチモーダル融合,タスク設計における重要な課題と今後の機会を強調しつつ,データセット,方法論,評価指標を体系的にレビューする3D SQAに関する最初の総合的な調査を示す。

関連論文リスト

A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文参考訳（メタデータ） (2025-04-25T23:27:26Z)
Multi-modal Situated Reasoning in 3D Scenes [32.800524889357305]
大規模マルチモーダル位置推論データセットであるMSQA(Multi-modal Situated Question Answering)を提案する。 MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。また,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションに対するモデルの位置的推論を評価する。
論文参考訳（メタデータ） (2024-09-04T02:37:38Z)
Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文参考訳（メタデータ） (2024-08-29T16:05:22Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。 2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文参考訳（メタデータ） (2024-03-12T10:04:08Z)
VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。サブタスクは、使用データの観点から本質的に整列している。私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文参考訳（メタデータ） (2024-02-29T11:38:44Z)
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T09:39:05Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-24T15:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。