論文の概要: Clarification as Supervision: Reinforcement Learning for Vision-Language Interfaces
- arxiv url: http://arxiv.org/abs/2509.26594v1
- Date: Tue, 30 Sep 2025 17:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.644337
- Title: Clarification as Supervision: Reinforcement Learning for Vision-Language Interfaces
- Title(参考訳): スーパービジョンとしての明確化:ビジョンランゲージインタフェースのための強化学習
- Authors: John Gkountouras, Ivan Titov,
- Abstract要約: 本稿では,視覚モデルに対話による情報推論に何が必要なのかを学習するアダプティブ・クラシフィケーション強化学習(AC-RL)を提案する。
AC-RLは7つの視覚数学的推論ベンチマークで事前訓練されたベースラインに対して平均精度を4.4ポイント改善する。
- 参考スコア(独自算出の注目度): 14.074625212174494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-only models demonstrate remarkable mathematical reasoning capabilities. Extending these to visual domains requires vision-language models to translate images into text descriptions. However, current models, trained to produce captions for human readers, often omit the precise details that reasoning systems require. This creates an interface mismatch: reasoners often fail not due to reasoning limitations but because they lack access to critical visual information. We propose Adaptive-Clarification Reinforcement Learning (AC-RL), which teaches vision models what information reasoners need through interaction. Our key insight is that clarification requests during training reveal information gaps; by penalizing success that requires clarification, we create pressure for comprehensive initial captions that enable the reasoner to solve the problem in a single pass. AC-RL improves average accuracy by 4.4 points over pretrained baselines across seven visual mathematical reasoning benchmarks, and analysis shows it would cut clarification requests by up to 39% if those were allowed. By treating clarification as a form of implicit supervision, AC-RL demonstrates that vision-language interfaces can be effectively learned through interaction alone, without requiring explicit annotations.
- Abstract(参考訳): 最近のテキストのみのモデルは、驚くべき数学的推論能力を示している。
これらを視覚領域に拡張するには、イメージをテキスト記述に変換する視覚言語モデルが必要である。
しかしながら、人間読者向けのキャプションを作成するために訓練された現在のモデルは、推論システムが必要とする正確な詳細を省略することが多い。
推論の制限のためではなく、重要な視覚情報にアクセスできないため失敗することが多い。
本稿では,視覚モデルに対話による情報推論に何が必要なのかを学習するアダプティブ・クラシフィケーション強化学習(AC-RL)を提案する。
我々の重要な洞察は、訓練中の明確化要求が情報ギャップを明らかにすることである; 明確化を必要とする成功を罰することにより、我々は、一パスで問題の解決を可能にする包括的な初期キャプションのプレッシャーを生み出す。
AC-RLは7つの視覚数学的推論ベンチマークにおいて、事前訓練されたベースラインに対して平均精度を4.4ポイント改善し、解析により、許可された場合、明確化要求を最大39%削減することを示した。
AC-RLは、明確化を暗黙的な監督の一形態として扱うことにより、明示的なアノテーションを必要とせず、対話だけで視覚言語インタフェースを効果的に学習できることを実証する。
関連論文リスト
- Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information [13.94596271015724]
長い推論は視覚的トークンを希釈し、視覚的情報の注意を減らし、幻覚を引き起こす可能性がある。
Qwen-LookAgain (Qwen-LA) は新たな視覚テキスト反映プロセスで、推論中にモデルが再認識されるように誘導する。
論文 参考訳(メタデータ) (2025-05-29T15:34:15Z) - Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning [41.59815187158526]
我々は視覚言語モデル(VLM)を訓練し、強化学習と視覚質問応答ペアを通して画像データに基づく推論を行う。
我々のモデルであるVisionary-R1は、複数の視覚的推論ベンチマークにおいて、強力なマルチモーダルモデルよりも優れています。
論文 参考訳(メタデータ) (2025-05-20T17:58:35Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。