論文の概要: Measuring Faithful and Plausible Visual Grounding in VQA
- arxiv url: http://arxiv.org/abs/2305.15015v2
- Date: Sat, 14 Oct 2023 15:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:58:26.093449
- Title: Measuring Faithful and Plausible Visual Grounding in VQA
- Title(参考訳): VQAにおける忠実で可視な視界計測
- Authors: Daniel Reich, Felix Putze, Tanja Schultz
- Abstract要約: VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは、与えられた質問に対する回答を推測する際に、システムの画像の関連部分への依存度を測定することを目的としている。
VGの欠如は、最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。
本稿では,モデルa)がシーン内の質問関連オブジェクトを識別し,b)応答を生成する際の関連オブジェクトに含まれる情報に実際に依存しているかどうかを判断する新しいVGメトリクスを提案する。
- 参考スコア(独自算出の注目度): 23.717744098159717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metrics for Visual Grounding (VG) in Visual Question Answering (VQA) systems
primarily aim to measure a system's reliance on relevant parts of the image
when inferring an answer to the given question. Lack of VG has been a common
problem among state-of-the-art VQA systems and can manifest in over-reliance on
irrelevant image parts or a disregard for the visual modality entirely.
Although inference capabilities of VQA models are often illustrated by a few
qualitative illustrations, most systems are not quantitatively assessed for
their VG properties. We believe, an easily calculated criterion for
meaningfully measuring a system's VG can help remedy this shortcoming, as well
as add another valuable dimension to model evaluations and analysis. To this
end, we propose a new VG metric that captures if a model a) identifies
question-relevant objects in the scene, and b) actually relies on the
information contained in the relevant objects when producing its answer, i.e.,
if its visual grounding is both "faithful" and "plausible". Our metric, called
"Faithful and Plausible Visual Grounding" (FPVG), is straightforward to
determine for most VQA model designs.
We give a detailed description of FPVG and evaluate several reference systems
spanning various VQA architectures. Code to support the metric calculations on
the GQA data set is available on GitHub.
- Abstract(参考訳): VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは主に、与えられた質問に対する回答を推測する際の、画像の関連部分への依存度を測定することを目的としている。
VGの欠如は最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。
VQAモデルの推論能力はいくつかの定性的な図によって説明されることが多いが、ほとんどのシステムはVG特性について定量的に評価されていない。
我々は、システムのVGを有意に測定する簡単な計算基準は、この欠点を解消し、モデル評価と分析にもう1つの価値ある次元を加えるのに役立つと考えている。
この目的のために,モデルが成立するかどうかをキャプチャする新しいVGメトリックを提案する。
a)シーン内の質問対象を特定すること,及び
b) 実際に,その回答を生成する際に,当該対象物に含まれる情報に依存する。すなわち,その視覚的接地が「不利」かつ「嘆かわしい」ものである場合
FPVG(Faithful and Plausible Visual Grounding)と呼ばれる我々のメトリクスは、ほとんどのVQAモデルの設計を簡単に決定できる。
FPVGの詳細な説明と,様々なVQAアーキテクチャにまたがる参照システムの評価を行う。
GQAデータセットのメトリック計算をサポートするコードはGitHubで公開されている。
関連論文リスト
- On the Role of Visual Grounding in VQA [19.977539219231932]
VQAの「ビジュアルグラウンド」とは、質問関連画像領域に基づいて回答を推測するモデルの傾向を指す。
DNNベースのVQAモデルは、ショートカット(SC)学習によってVGをバイパスしたことで有名である。
本稿では、VGとReasoningの概念を用いて、VQA推論を記述する新しい理論フレームワーク「Visually Grounded Reasoning」(VGR)を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:57:52Z) - Uncovering the Full Potential of Visual Grounding Methods in VQA [23.600816131032936]
VG-methodsは、モデルが質問関連視覚情報に依存することを強化することにより、VQA(Visual Question Answering)の性能を改善する。
VG-methodsのトレーニングと試験は、主に不正確なデータを用いて行われ、それらの潜在的な利益の適切な評価を妨げている。
実験の結果,評価条件が修正された場合,これらの手法はより効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T16:21:19Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Visually Grounded VQA by Lattice-based Retrieval [24.298908211088072]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
論文 参考訳(メタデータ) (2022-11-15T12:12:08Z) - What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility? [8.373151777137792]
視覚的質問応答(VQA)では、機械は関連する画像が与えられた質問に答えなければならない。
各種VQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価する。
本研究は,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2022-10-26T18:23:53Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。