論文の概要: Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2109.01934v1
- Date: Sat, 4 Sep 2021 21:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 17:03:33.420479
- Title: Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering
- Title(参考訳): 視覚的質問応答に対する相対的空間推論
- Authors: Pratyay Banerjee, Tejas Gokhale, Yezhou Yang, Chitta Baral
- Abstract要約: 我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 38.05223339919346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-language (V\&L) reasoning necessitates perception of visual
concepts such as objects and actions, understanding semantics and language
grounding, and reasoning about the interplay between the two modalities. One
crucial aspect of visual reasoning is spatial understanding, which involves
understanding relative locations of objects, i.e.\ implicitly learning the
geometry of the scene. In this work, we evaluate the faithfulness of V\&L
models to such geometric understanding, by formulating the prediction of
pair-wise relative locations of objects as a classification as well as a
regression task. Our findings suggest that state-of-the-art transformer-based
V\&L models lack sufficient abilities to excel at this task. Motivated by this,
we design two objectives as proxies for 3D spatial reasoning (SR) -- object
centroid estimation, and relative position estimation, and train V\&L with weak
supervision from off-the-shelf depth estimators. This leads to considerable
improvements in accuracy for the "GQA" visual question answering challenge (in
fully supervised, few-shot, and O.O.D settings) as well as improvements in
relative spatial reasoning. Code and data will be released
\href{https://github.com/pratyay-banerjee/weak_sup_vqa}{here}.
- Abstract(参考訳): 視覚と言語(V\&L)推論は、オブジェクトやアクション、セマンティクスや言語基盤の理解、そして2つのモダリティ間の相互作用についての推論を必要とする。
視覚的推論の重要な側面は空間的理解であり、物体の相対的な位置、すなわちシーンの幾何学を暗黙的に学習する。
本研究では,対象の対方向相対位置の予測を分類と回帰課題として定式化し,そのような幾何学的理解へのv\&lモデルの忠実性を評価する。
以上の結果から,現状の変圧器を用いたV\&Lモデルでは,この課題に優れる十分な能力が欠如していることが示唆された。
この動機付けにより,3次元空間推論 (sr) のプロキシーとして,対象遠心推定と相対位置推定の2つの目標をデザインし,既設深度推定器の弱い v\&l を訓練する。
これにより、「GQA」視覚質問応答チャレンジ(完全教師付き、少数ショット、O.O.D設定)の精度が大幅に向上し、相対空間推論も改善された。
コードとデータは \href{https://github.com/pratyay-banerjee/weak_sup_vqa}{here} でリリースされる。
関連論文リスト
- Exploring Spatial Language Grounding Through Referring Expressions [17.524558622186657]
視覚言語モデル(VLM)による空間推論評価のためのプラットフォームとして参照表現タスクを提案する。
このプラットフォームは,1)対象検出の曖昧さ,2)より長い文構造と複数の空間関係を持つ複雑な空間表現,3)否定を伴う表現("not")について,空間的理解と接地能力のより深い分析を行う機会を提供する。
本研究は,これらの課題と行動に注目し,研究のギャップと今後の方向性について考察する。
論文 参考訳(メタデータ) (2025-02-04T22:58:15Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。