論文の概要: 3D Question Answering
- arxiv url: http://arxiv.org/abs/2112.08359v1
- Date: Wed, 15 Dec 2021 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 15:10:38.608195
- Title: 3D Question Answering
- Title(参考訳): 3次元質問応答
- Authors: Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao
- Abstract要約: VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
- 参考スコア(独自算出の注目度): 22.203927159777123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) has witnessed tremendous progress in recent
years. However, most efforts only focus on the 2D image question answering
tasks. In this paper, we present the first attempt at extending VQA to the 3D
domain, which can facilitate artificial intelligence's perception of 3D
real-world scenarios. Different from image based VQA, 3D Question Answering
(3DQA) takes the color point cloud as input and requires both appearance and 3D
geometry comprehension ability to answer the 3D-related questions. To this end,
we propose a novel transformer-based 3DQA framework \textbf{``3DQA-TR"}, which
consists of two encoders for exploiting the appearance and geometry
information, respectively. The multi-modal information of appearance, geometry,
and the linguistic question can finally attend to each other via a
3D-Linguistic Bert to predict the target answers. To verify the effectiveness
of our proposed 3DQA framework, we further develop the first 3DQA dataset
\textbf{``ScanQA"}, which builds on the ScanNet dataset and contains $\sim$6K
questions, $\sim$30K answers for $806$ scenes. Extensive experiments on this
dataset demonstrate the obvious superiority of our proposed 3DQA framework over
existing VQA frameworks, and the effectiveness of our major designs. Our code
and dataset will be made publicly available to facilitate the research in this
direction.
- Abstract(参考訳): VQA(Visual Question Answering)は近年大きく進歩している。
しかし、ほとんどの取り組みは2次元画像質問応答タスクのみに焦点を当てている。
本稿では,VQAを3次元領域に拡張する最初の試みについて述べる。
画像ベースのVQAとは異なり、3D Question Answering (3DQA)はカラーポイントクラウドを入力とし、3D関連の質問に答えるために外観と3D幾何学的理解能力の両方を必要とする。
そこで本研究では, 2つのエンコーダから構成したトランスフォーマ3dqaフレームワーク \textbf{``3dqa-tr"} を提案する。
外観, 幾何学, 言語的問題に関するマルチモーダルな情報は, 3D-Linguistic Bert を用いて, 目標解の予測を行うことができる。
提案する3DQAフレームワークの有効性を検証するため,ScanNetデータセット上に構築され,$\sim$6Kの質問,$\sim$30Kの回答を含む最初の3DQAデータセットである『textbf{``ScanQA"』を開発した。
このデータセットに関する大規模な実験は、既存のVQAフレームワークよりも提案した3DQAフレームワークの明らかな優位性と、主要な設計の有効性を示している。
私たちのコードとデータセットは、この方向の研究を促進するために公開されます。
関連論文リスト
- Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - Towards 3D VR-Sketch to 3D Shape Retrieval [128.47604316459905]
入力モダリティとしての3Dスケッチの利用について検討し、検索を行うVRシナリオを提唱する。
この新しい3DVR-Sketchから3D形状の検索問題に対する最初のスタンプとして、私たちは4つのコントリビューションを行います。
論文 参考訳(メタデータ) (2022-09-20T22:04:31Z) - Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation [33.91844305449863]
大規模なVQA-3DデータセットであるCLEVR3Dを提案する。
本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。
より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
論文 参考訳(メタデータ) (2021-12-22T06:43:21Z) - ScanQA: 3D Question Answering for Spatial Scene Understanding [7.136295795446433]
質問応答3D-QAにおける新しい3次元空間理解課題を提案する。
3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。
私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。
論文 参考訳(メタデータ) (2021-12-20T12:30:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。