論文の概要: 3D-Aware Visual Question Answering about Parts, Poses and Occlusions
- arxiv url: http://arxiv.org/abs/2310.17914v1
- Date: Fri, 27 Oct 2023 06:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:46:34.504335
- Title: 3D-Aware Visual Question Answering about Parts, Poses and Occlusions
- Title(参考訳): 部分・ポーズ・咬合に関する3次元視覚質問応答
- Authors: Xingrui Wang, Wufei Ma, Zhuowan Li, Adam Kortylewski, Alan Yuille
- Abstract要約: 本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
- 参考スコア(独自算出の注目度): 20.83938624671415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in Visual question answering (VQA), existing datasets
and models mainly focus on testing reasoning in 2D. However, it is important
that VQA models also understand the 3D structure of visual scenes, for example
to support tasks like navigation or manipulation. This includes an
understanding of the 3D object pose, their parts and occlusions. In this work,
we introduce the task of 3D-aware VQA, which focuses on challenging questions
that require a compositional reasoning over the 3D structure of visual scenes.
We address 3D-aware VQA from both the dataset and the model perspective. First,
we introduce Super-CLEVR-3D, a compositional reasoning dataset that contains
questions about object parts, their 3D poses, and occlusions. Second, we
propose PO3D-VQA, a 3D-aware VQA model that marries two powerful ideas:
probabilistic neural symbolic program execution for reasoning and deep neural
networks with 3D generative representations of objects for robust visual
recognition. Our experimental results show our model PO3D-VQA outperforms
existing methods significantly, but we still observe a significant performance
gap compared to 2D VQA benchmarks, indicating that 3D-aware VQA remains an
important open research area.
- Abstract(参考訳): ビジュアル質問応答(VQA)の急速な進歩にもかかわらず、既存のデータセットとモデルは主に2Dにおけるテスト推論に焦点を当てている。
しかしながら、VQAモデルは、例えばナビゲーションや操作といったタスクをサポートするために、視覚シーンの3D構造を理解することも重要である。
これには、3dオブジェクトのポーズ、その部分、およびオクルージョンの理解が含まれる。
本稿では,視覚シーンの3d構造に対する構成的推論を必要とする課題に焦点を当てた3d対応vqaの課題を紹介する。
データセットとモデルの観点から3D対応VQAに対処する。
まず、オブジェクト部品、それらの3Dポーズ、オクルージョンに関する質問を含む合成推論データセットであるSuper-CLEVR-3Dを紹介する。
第2に,推論のための確率的ニューラルシンボリックプログラム実行と,ロバストな視覚認識のためのオブジェクトの3次元生成表現を備えたディープニューラルネットワークという,2つの強力なアイデアを融合した3次元認識vqaモデルを提案する。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2次元VQAベンチマークと比較すると大きな性能差がみられ,VQAは依然として重要な研究領域であることが示された。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - 3D Question Answering [22.203927159777123]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。
本稿では,新しい3DQAフレームワーク textbf3DQA-TR を提案する。
提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットtextbfScanQAを開発した。
論文 参考訳(メタデータ) (2021-12-15T18:59:59Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。