論文の概要: Multi-modal Situated Reasoning in 3D Scenes
- arxiv url: http://arxiv.org/abs/2409.02389v2
- Date: Mon, 18 Nov 2024 02:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:15.313670
- Title: Multi-modal Situated Reasoning in 3D Scenes
- Title(参考訳): 3次元シーンにおけるマルチモーダルな推論
- Authors: Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 大規模マルチモーダル位置推論データセットであるMSQA(Multi-modal Situated Question Answering)を提案する。
MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。
また,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションに対するモデルの位置的推論を評価する。
- 参考スコア(独自算出の注目度): 32.800524889357305
- License:
- Abstract: Situation awareness is essential for understanding and reasoning about 3D scenes in embodied AI agents. However, existing datasets and benchmarks for situated understanding are limited in data modality, diversity, scale, and task scope. To address these limitations, we propose Multi-modal Situated Question Answering (MSQA), a large-scale multi-modal situated reasoning dataset, scalably collected leveraging 3D scene graphs and vision-language models (VLMs) across a diverse range of real-world 3D scenes. MSQA includes 251K situated question-answering pairs across 9 distinct question categories, covering complex scenarios within 3D scenes. We introduce a novel interleaved multi-modal input setting in our benchmark to provide text, image, and point cloud for situation and question description, resolving ambiguity in previous single-modality convention (e.g., text). Additionally, we devise the Multi-modal Situated Next-step Navigation (MSNN) benchmark to evaluate models' situated reasoning for navigation. Comprehensive evaluations on MSQA and MSNN highlight the limitations of existing vision-language models and underscore the importance of handling multi-modal interleaved inputs and situation modeling. Experiments on data scaling and cross-domain transfer further demonstrate the efficacy of leveraging MSQA as a pre-training dataset for developing more powerful situated reasoning models.
- Abstract(参考訳): 環境認識は、具体化されたAIエージェントの3Dシーンの理解と推論に不可欠である。
しかし、位置理解のための既存のデータセットとベンチマークは、データモダリティ、多様性、スケール、タスクスコープに制限されている。
これらの制約に対処するため,大規模なマルチモーダル位置推論データセットであるMulti-modal Situated Question Answering (MSQA)を提案する。
MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。
本ベンチマークでは,テキスト,画像,ポイントクラウドを,従来の単一モダリティ規約(テキストなど)の曖昧さを解消する,新たなインターリーブ型マルチモーダル入力設定を導入する。
さらに,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションのためのモデルの位置的推論を評価する。
MSQAとMSNNの総合的な評価は、既存の視覚言語モデルの限界を強調し、マルチモーダルなインターリーブ入力と状況モデリングを扱うことの重要性を強調している。
データスケーリングとクロスドメイン転送の実験は、より強力な位置推論モデルを開発するための事前トレーニングデータセットとしてMSQAを活用する効果をさらに示している。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T09:39:05Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。