論文の概要: ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.16680v1
- Date: Sat, 20 Sep 2025 13:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.923043
- Title: ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering
- Title(参考訳): ProtoVQA: 説明可能な細粒度ビジュアル質問応答のための適応型プロトタイプフレームワーク
- Authors: Xingjian Diao, Weiyi Wu, Keyi Kong, Peijun Qing, Xinwen Xu, Ming Cheng, Soroush Vosoughi, Jiang Gui,
- Abstract要約: プロトタイプに基づくモデリングは意味論的意味のある領域における予測を基礎にすることで解釈可能性を示す。
本稿では,推論アンカーとして機能する質問認識型プロトタイプを学習する統合フレームワークであるProtoVQAを紹介する。
提案手法は,視覚言語的アライメントスコア (VLAS) を用いて, モデルに付随する領域が地中真実とどのように一致しているかを測るものである。
- 参考スコア(独自算出の注目度): 30.65960340061612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is increasingly used in diverse applications ranging from general visual reasoning to safety-critical domains such as medical imaging and autonomous systems, where models must provide not only accurate answers but also explanations that humans can easily understand and verify. Prototype-based modeling has shown promise for interpretability by grounding predictions in semantically meaningful regions for purely visual reasoning tasks, yet remains underexplored in the context of VQA. We present ProtoVQA, a unified prototypical framework that (i) learns question-aware prototypes that serve as reasoning anchors, connecting answers to discriminative image regions, (ii) applies spatially constrained matching to ensure that the selected evidence is coherent and semantically relevant, and (iii) supports both answering and grounding tasks through a shared prototype backbone. To assess explanation quality, we propose the Visual-Linguistic Alignment Score (VLAS), which measures how well the model's attended regions align with ground-truth evidence. Experiments on Visual7W show that ProtoVQA yields faithful, fine-grained explanations while maintaining competitive accuracy, advancing the development of transparent and trustworthy VQA systems.
- Abstract(参考訳): VQA(Visual Question Answering)は、一般的な視覚的推論から、医療画像や自律システムといった安全クリティカルな領域まで、さまざまなアプリケーションで使われている。
プロトタイプに基づくモデリングは、純粋に視覚的推論タスクのために意味論的に意味のある領域で予測を基礎付けることによって解釈可能性を示すが、VQAの文脈では未解明のままである。
原型を統一したフレームワークProtoVQAを提案する。
(i)識別画像領域に回答を接続し、推論アンカーとして機能する質問認識プロトタイプを学習する。
二 空間的に制約されたマッチングを適用して、選択された証拠が整合的かつ意味論的に関連があることを保証し、
(iii) 共有プロトタイプバックボーンによる応答処理とグラウンド処理の両方をサポートする。
説明品質を評価するために,提案する視覚言語アライメントスコア (VLAS) を提案する。
Visual7Wの実験では、ProtoVQAは競争精度を維持しながら忠実できめ細かい説明を与え、透明で信頼性の高いVQAシステムの開発を推進している。
関連論文リスト
- Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.92376420375139]
視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文 参考訳(メタデータ) (2025-03-08T06:12:50Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Multimodal Rationales for Explainable Visual Question Answering [12.893224628061516]
VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
MRVQAと呼ばれる新しいモデルを提案し、予測された回答をサポートするために視覚的およびテキスト的根拠を提供する。
MRVQAは、新たな合理的な生成を通じて、新しい最先端の結果を達成し、モデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-02-06T11:07:05Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Visually Grounded VQA by Lattice-based Retrieval [24.298908211088072]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
論文 参考訳(メタデータ) (2022-11-15T12:12:08Z) - ADVISE: ADaptive Feature Relevance and VISual Explanations for
Convolutional Neural Networks [0.745554610293091]
本稿では,機能マップの各ユニットの関連性を定量化し,活用して視覚的説明を提供する新しい説明可能性手法であるADVISEを紹介する。
我々は、画像分類タスクにおいて、AlexNet、VGG16、ResNet50、XceptionをImageNetで事前訓練した上で、我々のアイデアを広く評価する。
さらに,ADVISEは衛生チェックをパスしながら,感度および実装独立性公理を満たすことを示す。
論文 参考訳(メタデータ) (2022-03-02T18:16:57Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。