論文の概要: Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.29198v1
- Date: Thu, 28 May 2026 00:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.571254
- Title: Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization
- Title(参考訳): 離散的政策最適化のためのガイダンスコントラストトークンクレジット割り当て
- Authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul Yusuke Kato, Kazuki Kozuka, Aditya Grover,
- Abstract要約: GRPO や DAPO などのグループアドバンテージに基づく強化学習手法は,多様な領域で高い性能を示した。
モデル予測を正と負のプロンプトで対比することにより,トークン単位のクレジット割り当てを可能にする新しいアルゴリズムであるguidance Contrastive Policy Optimization (GCPO)を提案する。
GCPOは、テキスト・ツー・イメージ生成とチェーン・オブ・プリーティングのベンチマークの両方でGRPOとDAPOのベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 38.9467847203731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group-advantage-based reinforcement learning methods, such as GRPO and DAPO, have demonstrated strong performance across diverse domains, including mathematical reasoning and text-to-image generation. However, their reliance on sample-level rewards introduces a key limitation as uniform credit assignment across all tokens fails to capture fine-grained, token-level contributions. To address this issue, we propose Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment by contrasting model predictions under positive and negative prompts. Rather than uniformly broadcasting sample-level advantages, GCPO assigns token-level advantages proportional to the difference between these contrastive predictions, allowing more precise and informative learning signals. Empirically, we find that GCPO emphasizes semantically relevant regions such as visual areas aligned with textual prompts in text-to-image generation, and critical keywords within reasoning traces for chain-of-thought tasks. Through extensive experiments, GCPO consistently outperforms GRPO and DAPO baselines on both text-to-image generation and chain-of-thought reasoning benchmarks, demonstrating its effectiveness as a general and scalable optimization strategy for discrete policy learning.
- Abstract(参考訳): GRPO や DAPO などのグループアドバンテージに基づく強化学習手法は,数学的推論やテキスト・ツー・イメージ生成など,様々な領域で高い性能を発揮している。
しかしながら、サンプルレベルの報酬への依存は、すべてのトークンに対する均一なクレジット割り当てが、きめ細かいトークンレベルのコントリビューションの取得に失敗するため、重要な制限をもたらす。
この問題に対処するため、我々は、正と負のプロンプトの下でモデル予測を対比することにより、トークン単位のクレジット割り当てを可能にする新しいアルゴリズムである Guidance Contrastive Policy Optimization (GCPO) を提案する。
サンプルレベルの利点を均一に放送するのではなく、GCPOはこれらの対照的な予測の差に比例してトークンレベルの利点を割り当て、より正確で情報的な学習信号を可能にする。
経験的に、GCPOはテキスト・ツー・イメージ生成におけるテキスト・プロンプトに整合した視覚領域や、チェーン・オブ・ザ・シークレット・タスクの推論トレース内の重要なキーワードなど、意味的に関係のある領域を強調している。
広範な実験を通じて、GCPOはGRPOとDAPOのベースラインをテキスト・ツー・イメージ・ジェネレーションとチェーン・オブ・ソート・推論のベンチマークの両方で一貫して上回り、離散的なポリシー学習のための汎用的でスケーラブルな最適化戦略としての有効性を実証した。
関連論文リスト
- Segment-Aligned Policy Optimization for Multi-Modal Reasoning [55.29606572822562]
本稿では、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムを提案する。
代表的な推論ベンチマークの実験は、SAPOがトークンレベルおよびシーケンスレベルポリシー最適化手法を一貫して上回っていることを示している。
我々の研究は、強化学習の更新を推論の構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
論文 参考訳(メタデータ) (2026-05-02T08:47:45Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。