論文の概要: Visually Grounded VQA by Lattice-based Retrieval
- arxiv url: http://arxiv.org/abs/2211.08086v1
- Date: Tue, 15 Nov 2022 12:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 12:56:43.212137
- Title: Visually Grounded VQA by Lattice-based Retrieval
- Title(参考訳): 格子ベース検索による視覚接地vqa
- Authors: Daniel Reich, Felix Putze, Tanja Schultz
- Abstract要約: VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
- 参考スコア(独自算出の注目度): 24.298908211088072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG) in Visual Question Answering (VQA) systems describes
how well a system manages to tie a question and its answer to relevant image
regions. Systems with strong VG are considered intuitively interpretable and
suggest an improved scene understanding. While VQA accuracy performances have
seen impressive gains over the past few years, explicit improvements to VG
performance and evaluation thereof have often taken a back seat on the road to
overall accuracy improvements. A cause of this originates in the predominant
choice of learning paradigm for VQA systems, which consists of training a
discriminative classifier over a predetermined set of answer options.
In this work, we break with the dominant VQA modeling paradigm of
classification and investigate VQA from the standpoint of an information
retrieval task. As such, the developed system directly ties VG into its core
search procedure. Our system operates over a weighted, directed, acyclic graph,
a.k.a. "lattice", which is derived from the scene graph of a given image in
conjunction with region-referring expressions extracted from the question.
We give a detailed analysis of our approach and discuss its distinctive
properties and limitations. Our approach achieves the strongest VG performance
among examined systems and exhibits exceptional generalization capabilities in
a number of scenarios.
- Abstract(参考訳): VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
強いVGを持つシステムは直感的に解釈可能であり、シーン理解の改善が示唆されている。
VQAの精度性能はここ数年で著しく向上したが、VGの性能と評価が明らかに改善され、全体的な精度が向上した。
この原因は、vqaシステムの学習パラダイムを主に選択することにある。これは、所定の回答オプションのセット上で識別分類器を訓練することである。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
そのため、開発システムはVGを直接コアサーチ手順に結びつける。
本システムでは,重み付き,有向,非巡回グラフ,すなわち「格子」上で動作し,質問から抽出された領域参照表現と連動して,与えられた画像のシーングラフから導出する。
我々は、我々のアプローチを詳細に分析し、その特性と限界について論じる。
提案手法は, 試験システムの中で最強のVG性能を実現し, 多くのシナリオにおいて例外的な一般化能力を示す。
関連論文リスト
- On the Role of Visual Grounding in VQA [19.977539219231932]
VQAの「ビジュアルグラウンド」とは、質問関連画像領域に基づいて回答を推測するモデルの傾向を指す。
DNNベースのVQAモデルは、ショートカット(SC)学習によってVGをバイパスしたことで有名である。
本稿では、VGとReasoningの概念を用いて、VQA推論を記述する新しい理論フレームワーク「Visually Grounded Reasoning」(VGR)を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:57:52Z) - Uncovering the Full Potential of Visual Grounding Methods in VQA [23.600816131032936]
VG-methodsは、モデルが質問関連視覚情報に依存することを強化することにより、VQA(Visual Question Answering)の性能を改善する。
VG-methodsのトレーニングと試験は、主に不正確なデータを用いて行われ、それらの潜在的な利益の適切な評価を妨げている。
実験の結果,評価条件が修正された場合,これらの手法はより効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T16:21:19Z) - Measuring Faithful and Plausible Visual Grounding in VQA [23.717744098159717]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは、与えられた質問に対する回答を推測する際に、システムの画像の関連部分への依存度を測定することを目的としている。
VGの欠如は、最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。
本稿では,モデルa)がシーン内の質問関連オブジェクトを識別し,b)応答を生成する際の関連オブジェクトに含まれる情報に実際に依存しているかどうかを判断する新しいVGメトリクスを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:58:02Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Adventurer's Treasure Hunt: A Transparent System for Visually Grounded
Compositional Visual Question Answering based on Scene Graphs [29.59479131119943]
アドベンチャラー宝探し(アドベンチャラー宝探し、Adventurer's Treasure Hunt、ATH)は、我々のモデルによる解答の手続きと冒険者の宝探しの類似性から名づけられた。
ATHは、視覚知識ベースを直接クエリすることで、答えを動的に抽出する最初のGQA訓練VQAシステムである。
GQAデータセット上では,全コンポーネントの詳細な結果とVQAパフォーマンスへの貢献を報告し,ATHが全システムの中で最高の視覚的グラウンドティングスコアを達成していることを示す。
論文 参考訳(メタデータ) (2021-06-28T08:39:34Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。