論文の概要: Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification
- arxiv url: http://arxiv.org/abs/2601.16400v1
- Date: Fri, 23 Jan 2026 02:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.509953
- Title: Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification
- Title(参考訳): 文脈依存型エージェントVQAの強化学習
- Authors: Zongwan Cao, Bingbing Wen, Lucy Lu Wang,
- Abstract要約: 質問や回答の決定を別々にモデル化し,必要であれば何を求めるべきかをモデル化する質問・回答エージェントであるCoAを提案する。
CoAはまず、明確化が必要なのかを判断する。もしそうなら、単一の焦点を絞った質問をし、最後に答えを出すために応答を組み込む。
CoAはモジュールレベルとシステムレベルで一貫した改善を実現し、プロンプトベースのベースラインよりも平均+15.3ポイント(83%)のエンドツーエンドのVQA精度を向上させる。
- 参考スコア(独自算出の注目度): 10.412378789389544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world visual question answering (VQA) is often context-dependent: an image-question pair may be under-specified, such that the correct answer depends on external information that is not observable in the image. In such cases, directly answering can lead to confident but incorrect predictions. We propose CoA(Clarify-or-Answer), an ask-or-answer agent that separately models the decision to ask or answer, and what to ask if needed. CoA first determines whether clarification is necessary; if so, it asks a single focused question and then incorporates the response to produce the final answer. We introduce CONTEXTCLARIFY with a set of ambiguous VQA questions and the contrast set that is non-ambiguous. We further introduce GRPO-CR (Clarification Reasoning), a reinforcement learning approach that optimizes clarification question generation with multiple reward signals encouraging well-formed, focused, non-trivial questions that resolve ambiguity. Across three VLLMs and three datasets, CoA achieves consistent improvements at both the module and system levels, improving end-to-end VQA accuracy by an average of +15.3 points (83%) over prompting-based baselines
- Abstract(参考訳): 実世界の視覚的質問応答 (VQA) は、しばしば文脈に依存している: イメージ検索ペアは、画像内で観察できない外部情報に依存するように、過小評価されることがある。
このような場合、直接答えることによって、自信はあるものの誤った予測につながる可能性がある。
質問・回答の決定を個別にモデル化する質問・回答エージェントであるCoA(Clarify-or-Answer)を提案する。
CoAはまず、明確化が必要なのかを判断する。もしそうなら、単一の焦点を絞った質問をし、最後に答えを出すために応答を組み込む。
本稿では,不明瞭なVQA質問セットと,曖昧でないコントラストセットを備えたCONTEXTCLARIFYを紹介する。
さらにGRPO-CR(Clarification Reasoning)を導入し,曖昧さを解消する多値報酬信号による明確化質問生成を最適化する強化学習手法を提案する。
3つのVLLMと3つのデータセットにわたって、CoAはモジュールレベルとシステムレベルの両方で一貫した改善を実現し、プロンプトベースのベースラインよりも平均+15.3ポイント(83%)のエンドツーエンドのVQA精度を向上させる。
関連論文リスト
- Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Selectively Answering Ambiguous Questions [38.83930394700588]
我々は, サンプルモデル出力における繰り返しの定量化が, 退避時期を決定する最も信頼性の高い手法であることが判明した。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答のキャリブレーションに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T01:25:38Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - Estimating semantic structure for the VQA answer space [6.49970685896541]
3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:32:56Z) - Rephrasing visual questions by specifying the entropy of the answer
distribution [0.0]
本稿では,質問のあいまいさを制御し,新しい課題を提案する。
視覚的質問のあいまいさは、VQAモデルによって予測される回答分布のエントロピーを用いて定義される。
我々は,質問のあいまいさを制御できるアプローチの利点を実証し,あいまいさを減らすことよりも増大が難しいという興味深い観察を行った。
論文 参考訳(メタデータ) (2020-04-10T09:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。