論文の概要: Ask4VG: Risk-Aware Question Selection for Reducing Prior-Driven Answers in Medical VQA
- arxiv url: http://arxiv.org/abs/2606.01044v1
- Date: Sun, 31 May 2026 06:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.162911
- Title: Ask4VG: Risk-Aware Question Selection for Reducing Prior-Driven Answers in Medical VQA
- Title(参考訳): Ask4VG:医療用VQAにおける事前回答を減らすためのリスク対応質問選択
- Authors: Xiaorong Zhu, Qiang Li, Zibo Xu, Weijie Wang, Weizhi Nie,
- Abstract要約: リスク認識型質問選択のためのラベルフリーのパイロットフレームワークであるAsk4VGを提案する。
Ask4VGは、疑似視覚探索による質問誘発幻覚リスクを推定する。
Qwen2-VL-2B-インストラクタによるVQA-RADでは、プロンプトのみの書き換えは反ファクトリスクを増大させるが、予測リスクの低減は保留リスクを減少させる。
- 参考スコア(独自算出の注目度): 23.00531644487243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering requires models to ground their responses in image evidence, because visually unsupported answers can mislead downstream interpretation. However, many medical VQA questions are generic, template-like, or highly similar in form, which can encourage models to learn question-answer shortcuts instead of image-dependent reasoning and thereby increase the risk of hallucinated responses. We propose Ask4VG, a label-free pilot framework for risk-aware question selection. Ask4VG estimates question-induced hallucination risk through counterfactual visual probing: the same question is asked under the original image, a perturbed image, a blank image, and a mismatched image, and the resulting answer relations are converted into weak supervision for a counterfactual risk estimator. The learned estimator then reranks candidate question rewrites to favor intent-preserving questions that are less invariant to missing or mismatched visual evidence before final answer generation. On VQA-RAD with Qwen2-VL-2B-Instruct, prompt-only rewriting increases counterfactual risk, whereas predicted-risk reranking reduces held-out risk from 0.658 to 0.623 and improves exact accuracy from 0.337 to 0.356. A 300-sample PMC-VQA external check shows the same direction of risk reduction with a small accuracy gain. These results suggest that question selection is a promising complement to response-level hallucination mitigation for reliable medical VQA.
- Abstract(参考訳): 医学的な視覚的質問応答は、視覚的に支持されない答えが下流の解釈を誤解させる可能性があるため、モデルに画像証拠の回答を根拠にする必要がある。
しかし、多くの医療用VQA質問は汎用的、テンプレート的、あるいは非常に類似しており、モデルが画像依存推論の代わりに質問応答ショートカットを学習することを奨励し、幻覚応答のリスクを増大させる。
リスク認識型質問選択のためのラベルフリーのパイロットフレームワークであるAsk4VGを提案する。
Ask4VGは、原画像、摂動画像、空白画像、及び不一致画像に基づいて、疑似視覚的探索により質問誘発幻覚リスクを推定し、その結果の回答関係を、対実的リスク推定器の弱い監督に変換する。
学習した推定者は、最終回答生成前の視覚的証拠の欠如やミスマッチの少ない意図的保存質問を推奨するために、候補者の質問の書き直しを振り返る。
Qwen2-VL-2B-インストラクタによるVQA-RADでは、プロンプトのみの書き換えは反ファクトリスクを増加させる一方、予測リスクは0.658から0.623に減少し、精度は0.337から0.356に向上する。
300サンプルのPMC-VQA外部チェックでは、リスク低減の方向が小さく、精度も低い。
以上の結果から,質問選択は信頼性の高い医療用VQAに対する応答レベルの幻覚緩和に有望な補完となることが示唆された。
関連論文リスト
- Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification [10.412378789389544]
質問や回答の決定を別々にモデル化し,必要であれば何を求めるべきかをモデル化する質問・回答エージェントであるCoAを提案する。
CoAはまず、明確化が必要なのかを判断する。もしそうなら、単一の焦点を絞った質問をし、最後に答えを出すために応答を組み込む。
CoAはモジュールレベルとシステムレベルで一貫した改善を実現し、プロンプトベースのベースラインよりも平均+15.3ポイント(83%)のエンドツーエンドのVQA精度を向上させる。
論文 参考訳(メタデータ) (2026-01-23T02:12:33Z) - When to Trust the Answer: Question-Aligned Semantic Nearest Neighbor Entropy for Safer Surgical VQA [11.804829233549704]
VQA(Visual Question Answering)を手術に導入するには,安全性と信頼性が不可欠である。
我々は、より安全な意思決定の鍵となる不確実性推定について検討する。
ブラックボックスの不確実性推定器であるQA-SNNEを導入する。
論文 参考訳(メタデータ) (2025-11-03T11:18:21Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Will this Question be Answered? Question Filtering via Answer Model
Distillation for Efficient Question Answering [99.66470885217623]
本稿では,質問回答システム(QA)の効率向上に向けた新しいアプローチを提案する。
最新のQAシステムの回答信頼性スコアは、入力された質問テキストのみを使用してモデルによってうまく近似することができる。
論文 参考訳(メタデータ) (2021-09-14T23:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。