Fugu-MT 論文翻訳(概要): The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models

論文の概要: The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models

arxiv url: http://arxiv.org/abs/2507.20150v1
Date: Sun, 27 Jul 2025 06:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:57.079571
Title: The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models
Title（参考訳）: ポリシー・クリフ:大規模言語モデルにおけるリワード・ポリティ・マップの理論的分析
Authors: Xingcheng Xu,
Abstract要約: 強化学習(RL)は,大規模言語と推論モデル(LLMs/LRMs)の行動形成において重要な役割を担っているしかし、しばしば不安定で不安定なポリシーを生み出し、急激な推論、偽りのアライメント、命令の不服従といった重大な失敗に繋がる。本稿では,報酬関数から最適ポリシーへの写像の安定性を解析するための厳密な数学的枠組みを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) plays a crucial role in shaping the behavior of large language and reasoning models (LLMs/LRMs). However, it often produces brittle and unstable policies, leading to critical failures such as spurious reasoning, deceptive alignment, and instruction disobedience that undermine the trustworthiness and safety of LLMs/LRMs. Currently, these issues lack a unified theoretical explanation and are typically addressed using ad-hoc heuristics. This paper presents a rigorous mathematical framework for analyzing the stability of the mapping from a reward function to the optimal policy. We show that policy brittleness often stems from non-unique optimal actions, a common occurrence when multiple valid traces exist in a reasoning task. This theoretical lens provides a unified explanation for a range of seemingly disparate failures, reframing them as rational outcomes of optimizing rewards that may be incomplete or noisy, especially in the presence of action degeneracy. We extend this analysis from the fundamental single-reward setting to the more realistic multi-reward RL across diverse domains, showing how stability is governed by an "effective reward" aggregation mechanism. We also prove that entropy regularization restores policy stability at the cost of increased stochasticity. Our framework provides a unified explanation for recent empirical findings on deceptive reasoning, instruction-following trade-offs, and RLHF-induced sophistry, and is further validated through perturbation experiments in multi-reward RL. This work advances policy-stability analysis from empirical heuristics towards a principled theory, offering essential insights for designing safer and more trustworthy AI systems.
Abstract（参考訳）: 強化学習(RL)は、大規模言語と推論モデル(LLMs/LRMs)の振る舞いを形成する上で重要な役割を担っている。しかし、しばしば不安定で不安定な政策を生み出し、急激な推論、偽りの調整、LLM/LRMの信頼性と安全性を損なう命令不服従といった重大な失敗に繋がる。現在、これらの問題には統一的な理論的な説明がなく、一般にアドホックなヒューリスティックスを用いて対処されている。本稿では,報酬関数から最適ポリシーへの写像の安定性を解析するための厳密な数学的枠組みを提案する。ポリシの脆さは、しばしば、推論タスクに複数の有効なトレースが存在する場合の一般的な、一般的でない最適なアクションから生じることを示す。この理論レンズは、不完全またはノイズのある報酬を最適化する合理的な結果として、特にアクション・デジェネティ(英語版)の存在下で、様々な異なる障害を統一的に説明する。我々は、この分析を、基本的なシングルリワード設定から、様々な領域にわたるより現実的なマルチリワードRLへと拡張し、安定性が「効果的な報酬」アグリゲーション機構によってどのように支配されるかを示す。また,エントロピー規則化は,確率性の向上を犠牲にして,政策安定性を回復させることを示す。本フレームワークは, 認知的推論, 命令追従トレードオフ, およびRLHF誘発ソフィストリーに関する最近の経験的知見を統一的に説明し, マルチリワードRLにおける摂動実験を通じてさらに検証した。この研究は、経験的ヒューリスティックから原則理論への政策安定分析を推進し、より安全で信頼性の高いAIシステムを設計するための重要な洞察を提供する。

関連論文リスト

Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文参考訳（メタデータ） (2025-07-21T18:08:38Z)
Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文参考訳（メタデータ） (2025-07-03T17:01:53Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning [26.717777746219635]
数理推論をケーススタディとして、静的評価とRLトレーニングのシナリオの両方において、様々な検証を包括的に分析する。まず、現在のオープンソースのルールベースの検証器は、よく使われる数学的データセット間で異なる形式で表される同等の答えを認識できないことが多く、無視できない偽陰性率をもたらす。これらの制約に対処するための潜在的な解決策としてモデルベース検証について検討する。静的評価では,モデルの検証精度が著しく向上していることが示されているが,さらに解析とRLトレーニングの結果から,特定のパターンを誤分類するハッキングに非常に敏感であることが示唆された。
論文参考訳（メタデータ） (2025-05-28T10:28:41Z)
Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error [9.473089575932375]
近年の研究は、国家の敵対的堅牢性を達成する上での課題を浮き彫りにしている。内向的状態適応型マルコフ決定プロセス(ISA-MDP)について紹介する。 DRLの堅牢性の向上は自然環境における性能を損なうものではないことを示す。
論文参考訳（メタデータ） (2025-02-23T22:16:01Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文参考訳（メタデータ） (2024-06-12T16:45:09Z)
Latent State Marginalization as a Low-cost Approach for Improving Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文参考訳（メタデータ） (2022-10-03T15:09:12Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。