論文の概要: CLEVR3D: Compositional Language and Elementary Visual Reasoning for
Question Answering in 3D Real-World Scenes
- arxiv url: http://arxiv.org/abs/2112.11691v1
- Date: Wed, 22 Dec 2021 06:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:27:46.655622
- Title: CLEVR3D: Compositional Language and Elementary Visual Reasoning for
Question Answering in 3D Real-World Scenes
- Title(参考訳): CLEVR3D:3次元実世界における質問応答のための合成言語と初等視覚推論
- Authors: Xu Yan, Zhihao Yuan, Yuhao Du, Yinghong Liao, Yao Guo, Zhen Li,
Shuguang Cui
- Abstract要約: 実世界の3Dシーン(VQA-3D)において,視覚質問応答タスクを導入する。
この問題に対処するため、最初のVQA-3DデータセットであるCLEVR3Dが提案され、1,129の現実世界シーンに60Kの質問を含む。
- 参考スコア(独自算出の注目度): 28.138205929169636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene understanding is a relatively emerging research field. In this
paper, we introduce the Visual Question Answering task in 3D real-world scenes
(VQA-3D), which aims to answer all possible questions given a 3D scene. To
tackle this problem, the first VQA-3D dataset, namely CLEVR3D, is proposed,
which contains 60K questions in 1,129 real-world scenes. Specifically, we
develop a question engine leveraging 3D scene graph structures to generate
diverse reasoning questions, covering the questions of objects' attributes
(i.e., size, color, and material) and their spatial relationships. Built upon
this dataset, we further design the first VQA-3D baseline model, TransVQA3D.
The TransVQA3D model adopts well-designed Transformer architectures to achieve
superior VQA-3D performance, compared with the pure language baseline and
previous 3D reasoning methods directly applied to 3D scenarios. Experimental
results verify that taking VQA-3D as an auxiliary task can boost the
performance of 3D scene understanding, including scene graph analysis for the
node-wise classification and whole-graph recognition.
- Abstract(参考訳): 3Dシーン理解は比較的新しい研究分野である。
本稿では,3次元実世界シーン(vqa-3d)における視覚的質問応答タスクについて紹介する。
この問題に対処するため、最初のVQA-3DデータセットであるCLEVR3Dが提案され、1,129の現実世界シーンに60Kの質問を含む。
具体的には,物体の属性(サイズ,色,素材)とその空間的関係について,多様な推論問題を生成するために3次元シーングラフ構造を利用した質問エンジンを開発する。
このデータセットに基づいて、最初のVQA-3DベースラインモデルであるTransVQA3Dをさらに設計する。
TransVQA3Dモデルは、純粋な言語ベースラインと3Dシナリオに直接適用される以前の3D推論手法と比較して、優れたVQA-3D性能を実現するために、よく設計されたTransformerアーキテクチャを採用している。
実験結果から,VQA-3Dを補助タスクとすることで,ノードワイド分類のためのシーングラフ解析や全体グラフ認識など,3次元シーン理解の性能が向上することが確認された。
関連論文リスト
- Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - ScanQA: 3D Question Answering for Spatial Scene Understanding [7.136295795446433]
質問応答3D-QAにおける新しい3次元空間理解課題を提案する。
3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。
私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。
論文 参考訳(メタデータ) (2021-12-20T12:30:55Z) - 3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文 参考訳(メタデータ) (2021-12-15T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。