論文の概要: Policy Optimization Prefers The Path of Least Resistance
- arxiv url: http://arxiv.org/abs/2510.21853v1
- Date: Wed, 22 Oct 2025 21:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.618842
- Title: Policy Optimization Prefers The Path of Least Resistance
- Title(参考訳): 政策最適化は、耐熱性の経路を優先する
- Authors: Debdeep Sanyal, Aakash Sen Sharma, Dhruv Kumar, Saurabh Deshpande, Murari Mandal,
- Abstract要約: 政策最適化は明確な推論を捨てることが一貫して学習されていることを示す。
我々は、一連の制御された報酬分解実験を通じて、この原理を定式化する。
以上の結果から,政策立案の自由は両刃剣であることが明らかとなった。
- 参考スコア(独自算出の注目度): 7.4002859745101235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Policy optimization (PO) algorithms are used to refine Large Language Models for complex, multi-step reasoning. Current state-of-the-art pipelines enforce a strict think-then-answer format to elicit chain-of-thought (CoT); however, the behavior of PO when these rigid constraints are relaxed into an open-ended CoT structure remains an under-studied question. We investigate this gap with an extensive suite of controlled experiments and identify a consistent principle: \textit{policy optimization consistently follows the path of least resistance}. When afforded the flexibility to interleave reasoning and response, policy optimization consistently learns to discard explicit reasoning, causing the policy to degenerate to a direct \texttt{<answer>}-only format. This outcome holds true across various models and algorithms. We find that this collapse in format is persistent even when the complex \texttt{<think><answer>} format is assigned up to 4x larger reward weights. We formalize this principle through a series of controlled reward decomposition experiments, demonstrating a clear hierarchy: PO systematically optimizes for the simplest reward component first, a preference that holds even when faced with mutually exclusive choices or strong incentives for more complex behaviors. Finally, we show that successful convergence on the high-reward shortcut is not a low-effort drift but is driven by the optimization process that requires the KL-regularized policy to have sufficient freedom to make a significant shift from its initial prior. Our findings reveal that granting policies the freedom to diverge is a double-edged sword: while necessary for discovering high-reward shortcuts, it also creates a powerful incentive to game the simplest aspects of the reward function, posing a critical challenge for reward hacking under alignment.
- Abstract(参考訳): ポリシー最適化(PO)アルゴリズムは、複雑な多段階推論のために大規模言語モデルを洗練するために使用される。
現在の最先端パイプラインでは、チェーン・オブ・シント(CoT)を引き出すために厳密なシンクザイン・アンサーフォーマットが適用されているが、これらの厳密な制約がオープンなCoT構造に緩和される場合のPOの挙動は未調査のままである。
このギャップを制御された実験の広範なスイートを用いて検討し、一貫した原理を同定する: \textit{policy optimization は最小抵抗の経路を一貫して従う。
推論と応答をインターリーブする柔軟性がある場合、ポリシーの最適化は明示的な推論を捨てることを一貫して学び、ポリシーは直接の \texttt{<answer>} 形式に縮退する。
この結果は様々なモデルやアルゴリズムに当てはまる。
複雑な \texttt{<think><answer>} フォーマットが最大4倍の報酬重み付けに割り当てられた場合でも、この形式の崩壊は持続的である。
我々は、この原理を一連の制御された報酬分解実験で定式化し、明確な階層性を示す: POは、まず最も単純な報酬成分を体系的に最適化する。
最後に, 再帰ショートカットの収束を成功させるには, KL-正規化ポリシが初期から大きな変化を起こすのに十分な自由を要求される最適化プロセスが不可欠であることを示す。
以上の結果から, 分岐の自由を政策に付与することは, 両刃の剣であることが明らかとなった。高い逆ショートカットを発見するのに必要だが, 報酬関数の最も単純な側面をゲーム化するための強力なインセンティブも生み出す。
関連論文リスト
- Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Interactively Learning Preference Constraints in Linear Bandits [100.78514640066565]
我々は、既知の報酬と未知の制約で逐次意思決定を研究する。
応用として,運転シミュレーションにおいて,人間の嗜好を表現するための学習制約を検討する。
論文 参考訳(メタデータ) (2022-06-10T17:52:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。