論文の概要: Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias
- arxiv url: http://arxiv.org/abs/2605.08315v1
- Date: Fri, 08 May 2026 14:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.560284
- Title: Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias
- Title(参考訳): リフレクティブ・プロンプテッド・ポリシー最適化:軌道を囲むリビジョンとサリエンスバイアス
- Authors: Rahaf Abu Hara, Vaibbhav Murarri, Claudio Zito,
- Abstract要約: 本稿では,コンパクトなポリシークラスに対するポリシー探索のための2段階LLMフレームワークを提案する。
Critic-LLMは、結果のロールアウトを検査し、観察された状態、行動、報奨に基づくターゲットリビジョンを提案する。
R2POは10の環境で最高の報酬を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LLM-based policy optimizers see only scalar rewards: that a policy scored 0.45, but not whether the agent got stuck in a loop, fell into a hole on the third step, or performed well on 19 out of 20 rollouts and failed catastrophically on one. We propose Reflective Prompted Policy Optimization (R2PO), a two-stage LLM framework for policy search over compact policy classes that augments scalar reward feedback with trajectory-level behavioral evidence. A Search-LLM proposes candidate policy parameters; the environment executes them; a Critic-LLM inspects the resulting rollouts and proposes targeted revisions grounded in observed states, actions, and rewards. Across ten environments, ablations show R2PO's gains require separating global search from behavior-grounded revision and using selection to filter high-variance edits. We further identify a dominant failure mode, salience bias: when presented with multiple rollouts, the Critic-LLM fixates on improving a single failure even when most trajectories succeed. In a three-trajectory variant where the Critic-LLM sees the best, worst, and median rollout, this behavior explains 76.6% of regressions on CartPole. R2PO mitigates this by reasoning over aggregate rollout statistics, median-trajectory selection, and a revision rule. Using a 20B open-weight model, R2PO achieves the highest mean best reward across all ten environments, reaches near-optimal performance substantially earlier (e.g., near-maximum CartPole reward within ~500 episodes), and trains far more stably than both deep RL and prior LLM-based methods. These results show that treating trajectories as first-class in-context evidence, rather than artifacts reduced to scalar returns, changes how even comparatively small LLMs search over policy spaces, enabling them to learn faster, diagnose more precisely, and reliably improve external controllers.
- Abstract(参考訳): 既存のLCMベースの政策オプティマイザは、政策が0.45ポイントを獲得したが、エージェントがループにぶつかったり、第3ステップの穴に落ちたり、ロールアウト20回中19回で順調に動作し、1回で破滅的に失敗したりするなど、スカラー報酬しか見つからない。
本稿では,2段階のLLMフレームワークであるReflective Prompted Policy Optimization (R2PO)を提案する。
Search-LLMは、候補ポリシーパラメータを提案し、環境はそれらを実行し、Critical-LLMは結果のロールアウトを検査し、観測された状態、行動、報奨に基づくターゲットリビジョンを提案する。
10つの環境にまたがって、R2POの利得は、行動基盤のリビジョンからグローバル検索を分離し、高分散編集をフィルタリングするために選択を使用する必要があることを示している。
複数回ロールアウトされた場合、Critic-LLMは、ほとんどの軌道が成功した場合でも、単一障害を改善することを固定します。
Critic-LLMが最高の、最悪の、中央値のロールアウトとみなす3トラックのバリエーションでは、この振る舞いはCartPoleのレグレッションの76.6%を説明できる。
R2POは、集計ロールアウト統計、中央軌道選択、およびリビジョンルールについて推論することでこれを緩和する。
20Bのオープンウェイトモデルを用いて、R2POは、全10環境において最高の最高の報酬を達成し、ほぼ最適に近いパフォーマンス(例えば、500回以内で最大に近いCartPoleの報酬)に達し、深いRLと以前のLLMベースの手法よりもはるかに安定して訓練を行う。
これらの結果から, トラジェクトリーをスカラーリターンに還元されるアーティファクトではなく, ファーストクラスのインコンテキストエビデンスとして扱うことで, 比較的小さなLCMでさえ政策空間を探索し, より高速に学習し, より正確に診断し, 外部コントローラを確実に改善できることが示唆された。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training [33.61029387987583]
政策ミラー降下(PMD)は強化学習のための原則的枠組みを提供する
PMD-mean(英語版)と呼ばれる実用的アルゴリズムについて検討し、サンプリングポリシーの下での対数分割項と平均報酬とを近似する。
数学推論タスクの実験により, PMD-meanは安定性と時間効率を向上し, 優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T17:44:28Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。