論文の概要: Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
- arxiv url: http://arxiv.org/abs/2601.01483v1
- Date: Sun, 04 Jan 2026 11:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.43144
- Title: Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
- Title(参考訳): アドバンテージデカップリングされた参照最適化による視覚言語モデルの統一生成と自己検証
- Authors: Xinyu Qiu, Heng Jia, Zhengwen Zeng, Shuheng Shen, Changhua Meng, Yi Yang, Linchao Zhu,
- Abstract要約: 本稿では,一つの政策の中で回答生成と自己検証を共同で学習する統合強化学習フレームワークを提案する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
- 参考スコア(独自算出の注目度): 48.078132893679744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel test-time scaling typically trains separate generation and verification models, incurring high training and inference costs. We propose Advantage Decoupled Preference Optimization (ADPO), a unified reinforcement learning framework that jointly learns answer generation and self-verification within a single policy. ADPO introduces two innovations: a preference verification reward improving verification capability and a decoupled optimization mechanism enabling synergistic optimization of generation and verification. Specifically, the preference verification reward computes mean verification scores from positive and negative samples as decision thresholds, providing positive feedback when prediction correctness aligns with answer correctness. Meanwhile, the advantage decoupled optimization computes separate advantages for generation and verification, applies token masks to isolate gradients, and combines masked GRPO objectives, preserving generation quality while calibrating verification scores. ADPO achieves up to +34.1% higher verification AUC and -53.5% lower inference time, with significant gains of +2.8%/+1.4% accuracy on MathVista/MMMU, +1.9 cIoU on ReasonSeg, and +1.7%/+1.0% step success rate on AndroidControl/GUI Odyssey.
- Abstract(参考訳): 並列テストタイムスケーリングは通常、生成モデルと検証モデルを分離してトレーニングし、高いトレーニングと推論コストを発生させる。
本稿では,単一ポリシ内で回答生成と自己検証を共同で学習する統合強化学習フレームワークであるAdvantage Decoupled Preference Optimization (ADPO)を提案する。
ADPOは2つのイノベーションを導入している: 優先検証報酬による検証能力の向上と、生成と検証の相乗的最適化を可能にする分離最適化機構である。
特に、優先検証報酬は、正と負のサンプルからの平均検証スコアを判定閾値として算出し、予測正当性が正の正の正の値に一致した場合に正のフィードバックを与える。
一方、デカップリング最適化は、生成と検証の異なる利点を計算し、グラデーションを分離するためにトークンマスクを適用し、マスクされたGRPO目標を組み合わせ、検証スコアを調整しながら生成品質を保存する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
関連論文リスト
- AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling [8.593971468631613]
テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明された。
検証は,(1)推論性能と(2)計算効率に影響を与えると同時に,TTSにおいて重要な役割を担っている。
本稿では、ビーム探索を一般化する統一アルゴリズムである可変粒度探索(VG-Search)と、可変粒度パラメータgによるベストオブNサンプリングを紹介する。
論文 参考訳(メタデータ) (2025-05-16T22:24:48Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。