論文の概要: Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
- arxiv url: http://arxiv.org/abs/2601.01483v1
- Date: Sun, 04 Jan 2026 11:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.43144
- Title: Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
- Title(参考訳): アドバンテージデカップリングされた参照最適化による視覚言語モデルの統一生成と自己検証
- Authors: Xinyu Qiu, Heng Jia, Zhengwen Zeng, Shuheng Shen, Changhua Meng, Yi Yang, Linchao Zhu,
- Abstract要約: 本稿では,一つの政策の中で回答生成と自己検証を共同で学習する統合強化学習フレームワークを提案する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
- 参考スコア(独自算出の注目度): 48.078132893679744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel test-time scaling typically trains separate generation and verification models, incurring high training and inference costs. We propose Advantage Decoupled Preference Optimization (ADPO), a unified reinforcement learning framework that jointly learns answer generation and self-verification within a single policy. ADPO introduces two innovations: a preference verification reward improving verification capability and a decoupled optimization mechanism enabling synergistic optimization of generation and verification. Specifically, the preference verification reward computes mean verification scores from positive and negative samples as decision thresholds, providing positive feedback when prediction correctness aligns with answer correctness. Meanwhile, the advantage decoupled optimization computes separate advantages for generation and verification, applies token masks to isolate gradients, and combines masked GRPO objectives, preserving generation quality while calibrating verification scores. ADPO achieves up to +34.1% higher verification AUC and -53.5% lower inference time, with significant gains of +2.8%/+1.4% accuracy on MathVista/MMMU, +1.9 cIoU on ReasonSeg, and +1.7%/+1.0% step success rate on AndroidControl/GUI Odyssey.
- Abstract(参考訳): 並列テストタイムスケーリングは通常、生成モデルと検証モデルを分離してトレーニングし、高いトレーニングと推論コストを発生させる。
本稿では,単一ポリシ内で回答生成と自己検証を共同で学習する統合強化学習フレームワークであるAdvantage Decoupled Preference Optimization (ADPO)を提案する。
ADPOは2つのイノベーションを導入している: 優先検証報酬による検証能力の向上と、生成と検証の相乗的最適化を可能にする分離最適化機構である。
特に、優先検証報酬は、正と負のサンプルからの平均検証スコアを判定閾値として算出し、予測正当性が正の正の正の値に一致した場合に正のフィードバックを与える。
一方、デカップリング最適化は、生成と検証の異なる利点を計算し、グラデーションを分離するためにトークンマスクを適用し、マスクされたGRPO目標を組み合わせ、検証スコアを調整しながら生成品質を保存する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - The Unanticipated Asymmetry Between Perceptual Optimization and Assessment [15.11427750828098]
画像品質評価(IQA)に優れる忠実度指標は知覚的最適化に必ずしも有効ではないことを示す。
また、識別器設計は、バニラやトランスフォーマーベースの代替品よりも、より忠実な詳細な再構築を提供するパッチレベルおよび畳み込みアーキテクチャによって、最適化を形作る上で決定的な役割を担っていることも示している。
論文 参考訳(メタデータ) (2025-09-25T08:08:26Z) - Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling [8.593971468631613]
テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明された。
検証は,(1)推論性能と(2)計算効率に影響を与えると同時に,TTSにおいて重要な役割を担っている。
本稿では、ビーム探索を一般化する統一アルゴリズムである可変粒度探索(VG-Search)と、可変粒度パラメータgによるベストオブNサンプリングを紹介する。
論文 参考訳(メタデータ) (2025-05-16T22:24:48Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。