Fugu-MT 論文翻訳(概要): SQA3D: Situated Question Answering in 3D Scenes

論文の概要: SQA3D: Situated Question Answering in 3D Scenes

arxiv url: http://arxiv.org/abs/2210.07474v5
Date: Wed, 12 Apr 2023 20:05:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 17:24:40.956252
Title: SQA3D: Situated Question Answering in 3D Scenes
Title（参考訳）: sqa3d: 3dシーンで質問に答える場所
Authors: Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang
Abstract要約: エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D) シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。 ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
参考スコア（独自算出の注目度）: 86.0205305318308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new task to benchmark scene understanding of embodied agents: Situated Question Answering in 3D Scenes (SQA3D). Given a scene context (e.g., 3D scan), SQA3D requires the tested agent to first understand its situation (position, orientation, etc.) in the 3D scene as described by text, then reason about its surrounding environment and answer a question under that situation. Based upon 650 scenes from ScanNet, we provide a dataset centered around 6.8k unique situations, along with 20.4k descriptions and 33.4k diverse reasoning questions for these situations. These questions examine a wide spectrum of reasoning capabilities for an intelligent agent, ranging from spatial relation comprehension to commonsense understanding, navigation, and multi-hop reasoning. SQA3D imposes a significant challenge to current multi-modal especially 3D reasoning models. We evaluate various state-of-the-art approaches and find that the best one only achieves an overall score of 47.20%, while amateur human participants can reach 90.06%. We believe SQA3D could facilitate future embodied AI research with stronger situation understanding and reasoning capability.
Abstract（参考訳）: 3dシーンにおける質問応答(sqa3d)の具体化エージェントのシーン理解をベンチマークするタスクを提案する。シーンコンテキスト(例えば3Dスキャン)が与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況(位置、方向など)を理解し、その環境を判断し、その状況下で質問に答えるように要求する。 ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。これらの質問は、空間的関係理解からコモンセンス理解、ナビゲーション、マルチホップ推論まで、知的エージェントの推論能力の幅広い範囲について検討する。 SQA3Dは、現在のマルチモーダル、特に3D推論モデルに重大な課題を課している。我々は様々な最先端のアプローチを評価し、最高のアプローチは47.20%のスコアしか得られず、アマチュアの人間の参加者は90.06%に達することができる。 SQA3Dは、より強力な状況理解と推論能力を備えた未来のAI研究を促進することができると信じている。

関連論文リスト

3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文参考訳（メタデータ） (2025-05-28T09:04:39Z)
Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文参考訳（メタデータ） (2024-11-21T08:22:45Z)
Situational Awareness Matters in 3D Vision Language Reasoning [30.113617846516398]
SIG3Dは3次元視覚言語推論のためのエンド・ツー・エンドのコンディション・グラウンドド・モデルである。我々は,3Dシーンをスパースボクセル表現にトークン化し,言語に基づく状況推定手法を提案する。 SQA3DとScanQAデータセットの実験により、SIG3Dは状況推定や質問応答において最先端のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T17:59:45Z)
Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。 Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文参考訳（メタデータ） (2024-03-18T14:47:03Z)
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。 1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文参考訳（メタデータ） (2023-12-26T18:59:11Z)
3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文参考訳（メタデータ） (2023-10-27T06:15:30Z)
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文参考訳（メタデータ） (2023-05-24T07:40:50Z)
3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-20T17:59:49Z)
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation [33.91844305449863]
大規模なVQA-3DデータセットであるCLEVR3Dを提案する。本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
論文参考訳（メタデータ） (2021-12-22T06:43:21Z)
ScanQA: 3D Question Answering for Spatial Scene Understanding [7.136295795446433]
質問応答3D-QAにおける新しい3次元空間理解課題を提案する。 3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。
論文参考訳（メタデータ） (2021-12-20T12:30:55Z)
3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文参考訳（メタデータ） (2021-12-15T18:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。