論文の概要: Situational Awareness Matters in 3D Vision Language Reasoning
- arxiv url: http://arxiv.org/abs/2406.07544v2
- Date: Wed, 26 Jun 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 18:16:00.761553
- Title: Situational Awareness Matters in 3D Vision Language Reasoning
- Title(参考訳): 3次元視覚言語推論における状況認識
- Authors: Yunze Man, Liang-Yan Gui, Yu-Xiong Wang,
- Abstract要約: SIG3Dは3次元視覚言語推論のためのエンド・ツー・エンドのコンディション・グラウンドド・モデルである。
我々は,3Dシーンをスパースボクセル表現にトークン化し,言語に基づく状況推定手法を提案する。
SQA3DとScanQAデータセットの実験により、SIG3Dは状況推定や質問応答において最先端のモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 30.113617846516398
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Being able to carry out complicated vision language reasoning tasks in 3D space represents a significant milestone in developing household robots and human-centered embodied AI. In this work, we demonstrate that a critical and distinct challenge in 3D vision language reasoning is situational awareness, which incorporates two key components: (1) The autonomous agent grounds its self-location based on a language prompt. (2) The agent answers open-ended questions from the perspective of its calculated position. To address this challenge, we introduce SIG3D, an end-to-end Situation-Grounded model for 3D vision language reasoning. We tokenize the 3D scene into sparse voxel representation and propose a language-grounded situation estimator, followed by a situated question answering module. Experiments on the SQA3D and ScanQA datasets show that SIG3D outperforms state-of-the-art models in situation estimation and question answering by a large margin (e.g., an enhancement of over 30% on situation estimation accuracy). Subsequent analysis corroborates our architectural design choices, explores the distinct functions of visual and textual tokens, and highlights the importance of situational awareness in the domain of 3D question answering.
- Abstract(参考訳): 3D空間で複雑な視覚言語推論タスクを実行できることは、家庭用ロボットや人間中心のAIを開発する上で重要なマイルストーンとなる。
本研究では,3次元視覚言語推論における重要な課題として,(1)自律エージェントが言語プロンプトに基づいて自己配置を行うという2つの重要な要素を取り入れた状況認識があることを実証する。
2) エージェントは, 計算された位置の観点から, オープンエンドの質問に答える。
この課題に対処するために,3次元視覚言語推論のためのエンドツーエンドの状況認識モデルであるSIG3Dを紹介する。
我々は,3Dシーンをスパースボクセル表現にトークン化し,言語基底の状況推定器を提案し,次いで質問応答モジュールを定位する。
SQA3DとScanQAデータセットの実験では、SIG3Dは、状況推定と質問応答において、大きなマージン(例えば、状況推定精度の30%以上向上)で最先端のモデルより優れていた。
その後の分析は、アーキテクチャ設計の選択を裏付け、視覚的およびテキスト的トークンの異なる機能を探究し、3次元質問応答の領域における状況認識の重要性を強調します。
関連論文リスト
- Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding [12.462336116108572]
3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。
既存の手法は、オブジェクト認識の正確さや複雑な言語クエリの解釈に苦慮している場合が多い。
我々は,自己注意に基づくシーン認識オブジェクトエンコーダと,元来のマルチキーアンカー技術を統合したMiKASA変換器を提案する。
我々のモデルは、Sr3DとNr3Dの両方のデータセットに対するReferit3Dチャレンジにおいて、最も高い総合的精度を達成する。
論文 参考訳(メタデータ) (2024-03-05T16:01:55Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文 参考訳(メタデータ) (2023-05-18T05:25:40Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。