論文の概要: Skip-Connected Policy Optimization for Implicit Advantage
- arxiv url: http://arxiv.org/abs/2604.08690v1
- Date: Thu, 09 Apr 2026 18:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.533146
- Title: Skip-Connected Policy Optimization for Implicit Advantage
- Title(参考訳): インシシデントアドバンテージのためのスキップ接続型ポリシー最適化
- Authors: Fengwei Teng, Jinyi Bai, Xinhao Yao, Demi Ruohan Wang, Jiahao Zhao, Zhijiang Guo,
- Abstract要約: そこで我々は,Skip-Connected Optimization (SKPO)を提案する。
実験では、それぞれQwen2.5-Math-7BとLlama-3.2-3Bのベースラインよりも3.91%と6.17%向上した。
SKPOは、最終的な正しさにマッチした場合でも、中間ステップ品質の高い軌道を生成する。
- 参考スコア(独自算出の注目度): 12.767650111247933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has proven effective in RLVR by using outcome-based rewards. While fine-grained dense rewards can theoretically improve performance, we reveal that under practical sampling budgets, Monte Carlo estimation yields high-variance and sign-inconsistent advantages for early reasoning tokens, paradoxically underperforming outcome-only GRPO. We propose Skip-Connected Optimization (SKPO), which decomposes reasoning into upstream and downstream phases: upstream receives dense rewards from downstream Monte Carlo sampling with single-stream optimization; downstream maintains group-relative optimization, where a skip connection concatenates the upstream segment with the original problem, enabling the model to leverage helpful upstream reasoning while preserving the freedom to bypass flawed reasoning through direct problem access. Experiments demonstrate improvements of 3.91% and 6.17% relative gains over the strongest baselines on Qwen2.5-Math-7B and Llama-3.2-3B respectively across mathematical benchmarks and out-of-domain tasks including general reasoning and code generation. Further analysis reveals an implicit advantage: SKPO generates trajectories with higher intermediate-step quality even when matched for final correctness.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、結果に基づく報酬を用いてRLVRに有効であることが証明されている。
微粒な密度の報酬は理論的に性能を向上させることができるが、実際のサンプリング予算の下ではモンテカルロ推定は早期推論トークンに対して高分散と符号の不整合の利点をもたらし、パラドックス的に結果のみのGRPOを低下させる。
上流モンテカルロサンプリングと単一ストリーム最適化を併用し、下流モンテカルロサンプリングを高密度に受け取り、上流セグメントと元の問題とを連結したグループ相対最適化を実現し、直接問題アクセスによる欠陥推論をバイパスする自由を維持しながら、上流領域の推論を有効活用する。
実験では、Qwen2.5-Math-7BとLlama-3.2-3Bにおける最強ベースラインに対する3.91%と6.17%の相対的なゲインの改善が、それぞれ数学ベンチマークと一般的な推論やコード生成を含むドメイン外のタスクで示された。
さらに分析すると、SKPOは最終的な正しさにマッチした場合でも、中間段階の品質の高い軌道を生成するという暗黙の利点が示される。
関連論文リスト
- P^2O: Joint Policy and Prompt Optimization [74.45293488495592]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
プロンプト最適化とポリシー最適化を相乗化する新しいフレームワークであるP2Oを提案する。
論文 参考訳(メタデータ) (2026-03-23T12:08:47Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。