論文の概要: Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation
- arxiv url: http://arxiv.org/abs/2112.11691v3
- Date: Mon, 22 May 2023 02:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:33:47.492514
- Title: Comprehensive Visual Question Answering on Point Clouds through
Compositional Scene Manipulation
- Title(参考訳): 合成シーン操作による点雲の総合的視覚的解答
- Authors: Xu Yan, Zhihao Yuan, Yuhao Du, Yinghong Liao, Yao Guo, Zhen Li,
Shuguang Cui
- Abstract要約: 大規模なVQA-3DデータセットであるCLEVR3Dを提案する。
本研究では,3次元シーングラフ構造を利用した質問エンジンを開発し,多様な推論問題を生成する。
より困難な設定が提案され、背景のバイアスを除去し、コンテキストを常識的なレイアウトから調整する。
- 参考スコア(独自算出の注目度): 33.91844305449863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering on 3D Point Cloud (VQA-3D) is an emerging yet
challenging field that aims at answering various types of textual questions
given an entire point cloud scene. To tackle this problem, we propose the
CLEVR3D, a large-scale VQA-3D dataset consisting of 171K questions from 8,771
3D scenes. Specifically, we develop a question engine leveraging 3D scene graph
structures to generate diverse reasoning questions, covering the questions of
objects' attributes (i.e., size, color, and material) and their spatial
relationships. Through such a manner, we initially generated 44K questions from
1,333 real-world scenes. Moreover, a more challenging setup is proposed to
remove the confounding bias and adjust the context from a common-sense layout.
Such a setup requires the network to achieve comprehensive visual understanding
when the 3D scene is different from the general co-occurrence context (e.g.,
chairs always exist with tables). To this end, we further introduce the
compositional scene manipulation strategy and generate 127K questions from
7,438 augmented 3D scenes, which can improve VQA-3D models for real-world
comprehension. Built upon the proposed dataset, we baseline several VQA-3D
models, where experimental results verify that the CLEVR3D can significantly
boost other 3D scene understanding tasks. Our code and dataset will be made
publicly available at https://github.com/yanx27/CLEVR3D.
- Abstract(参考訳): Visual Question Answering on 3D Point Cloud (VQA-3D)は,ポイントクラウドシーン全体に対して,さまざまなタイプのテキスト質問に回答することを目的とした,新興かつ困難な分野である。
この問題に対処するため,大規模VQA-3DデータセットであるCLEVR3Dを提案する。
具体的には,物体の属性(サイズ,色,素材)とその空間的関係について,多様な推論問題を生成するために3次元シーングラフ構造を利用した質問エンジンを開発する。
このような方法で、1,333の現実世界シーンから44Kの質問を生成した。
さらに,統合バイアスを取り除き,共通センスレイアウトからコンテキストを調整するための,より困難な設定が提案されている。
このようなセットアップでは、3Dシーンが一般的な共起コンテキストと異なる場合(例えば椅子は常にテーブルに存在している)、網羅的な視覚的理解を実現する必要がある。
そこで本研究では,合成シーン操作戦略をさらに導入し,実世界の理解のためのVQA-3Dモデルを改善する7,438個の拡張3Dシーンから127Kの質問を生成する。
提案したデータセットに基づいて、いくつかのVQA-3Dモデルをベースライン化し、実験結果から、CLEVR3Dが他の3Dシーン理解タスクを大幅に向上できることを確認した。
私たちのコードとデータセットはhttps://github.com/yanx27/CLEVR3Dで公開されます。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - ScanQA: 3D Question Answering for Spatial Scene Understanding [7.136295795446433]
質問応答3D-QAにおける新しい3次元空間理解課題を提案する。
3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。
私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。
論文 参考訳(メタデータ) (2021-12-20T12:30:55Z) - 3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文 参考訳(メタデータ) (2021-12-15T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。