論文の概要: Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline
- arxiv url: http://arxiv.org/abs/2209.12028v1
- Date: Sat, 24 Sep 2022 15:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:05:58.454226
- Title: Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline
- Title(参考訳): 説明可能な3Dグラウンドのビジュアル質問回答に向けて:新しいベンチマークと強力なベースライン
- Authors: Lichen Zhao, Daigang Cai, Jing Zhang, Lu Sheng, Dong Xu, Rui Zheng,
Yinjie Zhao, Lipeng Wang and Xibo Fan
- Abstract要約: 3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.717047755880536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D vision-and-language tasks have attracted increasing research
interest. Compared to other vision-and-language tasks, the 3D visual question
answering (VQA) task is less exploited and is more susceptible to language
priors and co-reference ambiguity. Meanwhile, a couple of recently proposed 3D
VQA datasets do not well support 3D VQA task due to their limited scale and
annotation methods. In this work, we formally define and address a 3D grounded
VQA task by collecting a new 3D VQA dataset, referred to as FE-3DGQA, with
diverse and relatively free-form question-answer pairs, as well as dense and
completely grounded bounding box annotations. To achieve more explainable
answers, we labelled the objects appeared in the complex QA pairs with
different semantic types, including answer-grounded objects (both appeared and
not appeared in the questions), and contextual objects for answer-grounded
objects. We also propose a new 3D VQA framework to effectively predict the
completely visually grounded and explainable answer. Extensive experiments
verify that our newly collected benchmark datasets can be effectively used to
evaluate various 3D VQA methods from different aspects and our newly proposed
framework also achieves state-of-the-art performance on the new benchmark
dataset. Both the newly collected dataset and our codes will be publicly
available at http://github.com/zlccccc/3DGQA.
- Abstract(参考訳): 近年,3次元視覚言語タスクが研究の関心を集めている。
他の視覚・言語タスクと比較すると、3D視覚的質問応答(VQA)タスクは利用されにくく、言語優先や相互参照の曖昧さに敏感である。
一方、最近提案された2つの3D VQAデータセットは、3D VQAタスクをうまくサポートしていない。
FE-3DGQAと呼ばれる新しい3次元VQAデータセットを,多種多様で比較的自由な質問応答対と,密集した完全に接地された境界ボックスアノテーションで収集することにより,VQAタスクを正式に定義し,対処する。
より説明可能な回答を得るために、我々は、解答接地オブジェクト(問答接地オブジェクト)と解答接地オブジェクトのコンテキストオブジェクトを含む、異なる意味型を持つ複雑なQAペアに現れるオブジェクトをラベル付けした。
また,完全視覚的かつ説明可能な答えを効果的に予測する新しい3次元VQAフレームワークを提案する。
大規模な実験により,新たに収集したベンチマークデータセットが,さまざまな側面から様々な3D VQAメソッドを評価するのに有効であることが確認された。
新たに収集したデータセットと私たちのコードは、http://github.com/zlccccc/3dgqaで公開されます。
関連論文リスト
- Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - 3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文 参考訳(メタデータ) (2021-12-15T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。