論文の概要: DUEL: Adversarial Self-Play for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.24794v1
- Date: Sun, 24 May 2026 00:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.44778
- Title: DUEL: Adversarial Self-Play for Multimodal Reasoning
- Title(参考訳): DUEL:マルチモーダル推論のための対戦型セルフプレイ
- Authors: Lin Qiu, Hanqing Zeng, Yao Liu, Bingjun Sun, Guangdeng Liao, Ji Liu,
- Abstract要約: 視覚言語モデル(VLM)の推論能力向上のための効果的なパラダイムとして強化学習(RL)が登場した。
本稿では,同じ事前学習VLMから生じる2つのポリシー間の対立的相互作用から,監督が出現する自己進化的ポストトレーニングフレームワークDUELを提案する。
実験によると、DUELは人間のアノテーション、外部報酬モデル、画像編集ツールを使わずに、視覚的推論と堅牢な識別を一貫して改善している。
- 参考スコア(独自算出の注目度): 16.61891948648537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as an effective paradigm for improving the reasoning capability of vision-language models (VLMs). However, RL-based optimization typically depends on costly high-quality annotations that are difficult to scale. Existing unsupervised alternatives may drift toward biased solutions due to weak visual grounding and the lack of reliable verification signals. We propose a self-evolving post-training framework, DUEL, where supervision emerges from adversarial interactions between two policies initialized from the same pretrained VLM. A Challenger generates an image-grounded true claim together with a minimally perturbed hard-negative counterpart, while a Solver verifies both claims against the image, encouraging fine-grained visual discrimination under near-neighbor semantics. To stabilize optimization, we introduce a length-normalized log-likelihood reward that preserves informative optimization signals beyond binary outcome supervision and improves learning stability under sparse feedback. Experiments show that DUEL consistently improves visual reasoning and robust discrimination without additional human annotations, external reward models, or image editing tools.
- Abstract(参考訳): 視覚言語モデル(VLM)の推論能力向上に有効なパラダイムとして強化学習(RL)が登場した。
しかし、RLベースの最適化は通常、スケールが難しい高価な高品質のアノテーションに依存します。
既存の教師なしの代替手段は、弱い視覚的接地と信頼性のある検証信号の欠如によりバイアスのある解に向かって漂流する可能性がある。
本稿では,同じ事前学習VLMから初期化した2つのポリシー間の対立的相互作用から,監督が出現する自己進化的ポストトレーニングフレームワークDUELを提案する。
チャレンジャーは、画像に対する両方の主張を検証し、近くのセマンティクスの下できめ細かい視覚的識別を促進する。
最適化を最適化するために、二進的な結果管理以上の情報的最適化信号を保持し、スパースフィードバック下での学習安定性を向上させる長正規化ログ類似報酬を導入する。
実験によると、DUELは人間のアノテーション、外部報酬モデル、画像編集ツールを使わずに、視覚的推論と堅牢な識別を一貫して改善している。
関連論文リスト
- PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning [80.94559742826083]
Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
近年の研究では,高コストな外部モデルを必要としないステップレベルのガイダンスを提供することで,詳細なモデル固有の信号を提供することで,言語推論のトレーニングを効果的に向上することが示された。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは準最適戦略である。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
論文 参考訳(メタデータ) (2026-05-13T12:55:18Z) - Reinforcing Multimodal Reasoning Against Visual Degradation [40.90242778291155]
視覚的劣化に対する推論を強化するために最適化力学を改良したRLフレームワークを提案する。
本手法は, GRPO上の不明瞭な汚損に対して+2.4%, +2.3%の堅牢性を向上し, 清潔な精度を実現した。
論文 参考訳(メタデータ) (2026-05-10T02:17:14Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing [33.888289858260706]
画像編集の質を向上させるために,強化学習(RL)について検討した。
RL は,(1) ノイズ除去に限定した推論探索,(2) バイアスド報酬融合,(3) 不安定な VLM ベースの命令報酬の3つの主要な課題に直面している。
画像合成から視覚的推論を分離する推論中心のRLフレームワークであるThinkRL-Editを提案する。
論文 参考訳(メタデータ) (2026-01-06T23:43:00Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。