論文の概要: Generating Context-Aware Natural Answers for Questions in 3D Scenes
- arxiv url: http://arxiv.org/abs/2310.19516v1
- Date: Mon, 30 Oct 2023 13:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:21:52.558533
- Title: Generating Context-Aware Natural Answers for Questions in 3D Scenes
- Title(参考訳): 3次元シーンにおける質問に対する文脈対応自然回答の生成
- Authors: Mohammed Munzer Dwedari, Matthias Niessner, Dave Zhenyu Chen
- Abstract要約: 質問応答タスクをシーケンス生成タスクにピボットし、3Dシーンにおける質問に対する自由形式の自然な回答を生成する(Gen3DQA)。
ScanQAベンチマークに新しいSOTAを設定する(テストセットのCIDErスコア72.22/66.57)。
- 参考スコア(独自算出の注目度): 4.028503203417233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D question answering is a young field in 3D vision-language that is yet to
be explored. Previous methods are limited to a pre-defined answer space and
cannot generate answers naturally. In this work, we pivot the question
answering task to a sequence generation task to generate free-form natural
answers for questions in 3D scenes (Gen3DQA). To this end, we optimize our
model directly on the language rewards to secure the global sentence semantics.
Here, we also adapt a pragmatic language understanding reward to further
improve the sentence quality. Our method sets a new SOTA on the ScanQA
benchmark (CIDEr score 72.22/66.57 on the test sets).
- Abstract(参考訳): 3D質問応答は、まだ探索されていない3D視覚言語における若い分野である。
従来の方法は事前に定義された回答空間に限られており、自然に回答を生成できない。
本研究では,質問応答タスクをシーケンス生成タスクにピボットし,3次元シーン (gen3dqa) における質問に対する自由形式の自然な回答を生成する。
この目的のために、我々は言語報酬を直接モデルに最適化し、グローバルな文セマンティクスを確保する。
また,文の質を向上させるために,実用的な言語理解報酬を適用する。
本手法は,ScanQAベンチマークに新しいSOTAを設定する(テストセットのCIDErスコア72.22/66.57)。
関連論文リスト
- Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Think-Program-reCtify: 3D Situated Reasoning with Large Language Models [68.52240087262825]
本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。
我々は,ThinkProgram-reCtifyループを通じて,大規模言語モデル(LLM)の計画,ツール使用,リフレクション機能を活用する新しいフレームワークを提案する。
SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。
論文 参考訳(メタデータ) (2024-04-23T03:22:06Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Integrating Image Features with Convolutional Sequence-to-sequence
Network for Multilingual Visual Question Answering [0.0]
VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。
VLSP2022-EVJVQA共有タスクは、Visual Question Answeringタスクを、新たにリリースされたデータセット上の多言語ドメインに格納する。
我々は、この課題をシーケンシャル・ツー・シーケンス学習タスクとしてアプローチし、事前訓練された最先端VQAモデルからのヒントを統合する。
公開テストセットで0.3442点,プライベートテストセットで0.4210点,コンペでは3位となった。
論文 参考訳(メタデータ) (2023-03-22T15:49:33Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation [33.91844305449863]
大規模なVQA-3DデータセットであるCLEVR3Dを提案する。
本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。
より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
論文 参考訳(メタデータ) (2021-12-22T06:43:21Z) - ScanQA: 3D Question Answering for Spatial Scene Understanding [7.136295795446433]
質問応答3D-QAにおける新しい3次元空間理解課題を提案する。
3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。
私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。
論文 参考訳(メタデータ) (2021-12-20T12:30:55Z) - 3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文 参考訳(メタデータ) (2021-12-15T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。