論文の概要: Beyond the Bellman Recursion: A Pontryagin-Guided Framework for Non-Exponential Discounting
- arxiv url: http://arxiv.org/abs/2605.20996v1
- Date: Wed, 20 May 2026 10:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.623367
- Title: Beyond the Bellman Recursion: A Pontryagin-Guided Framework for Non-Exponential Discounting
- Title(参考訳): ベルマン再帰を超えて:非指数的分散のためのポントリャーギン誘導フレームワーク
- Authors: Hojin Ko, Jeonggyu Huh,
- Abstract要約: ベルマン型再帰は,ヒトの嗜好や生存過程に共通する非排他的割引の下で崩壊することを示す。
本稿では,再帰を放棄し,モンテ・カルロスとポントリャーギン原理を結合する変動的枠組みであるPG-DPOを提案する。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most value-based and actor--critic reinforcement learning methods rely on Bellman-style recursions, yet these recursions collapse under non-exponential discounting common in human preferences and survival processes. We show the breakdown is structural: exponential discounting sits at a fragile intersection of multiplicativity and time homogeneity, and violating either property breaks standard dynamic programming. To overcome this, we propose Pontryagin-Guided Direct Policy Optimization (PG-DPO), a variational framework that abandons recursion and couples the Pontryagin Maximum Principle with Monte Carlo rollouts via an Adjoint-MC projection enforcing pointwise Hamiltonian maximization. Across multi-dimensional hyperbolic and survival-discount benchmarks, PG-DPO improves accuracy and stability where equation-driven solvers and critic-based baselines diverge.
- Abstract(参考訳): ほとんどの価値ベースおよびアクターによる強化学習法はベルマン流の再帰に依存しているが、これらの再帰は人間の嗜好や生存過程に共通する非排他的割引の下で崩壊する。
指数的割引は乗算性と時間均質性の脆弱な交点に置かれ、どちらの特性に違反しても標準的な動的プログラミングを損なう。
そこで本研究では,再帰を放棄し,Pongryagin Maximum Principle をモンテカルロロールアウトに結合する変分フレームワークであるPongryagin-Guided Direct Policy Optimization (PG-DPO)を提案する。
PG-DPOは多次元双曲と生存率のベンチマーク全体にわたって、方程式駆動の解法と批判に基づくベースラインが分岐する精度と安定性を改善している。
関連論文リスト
- Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL [8.809468023364703]
堅牢な強化学習アルゴリズムの設計は根本的な課題を生んでいる。
本稿では、関連するロバスト関数の1次展開に基づく近似DRRLフレームワークを提案する。
この近似方程式の定点を学習するために,平均変数近似(MVSA)を提案する。
論文 参考訳(メタデータ) (2026-05-08T19:24:28Z) - DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment [3.5885872325877926]
本稿では,新たな批判的自由強化学習フレームワークである配流誘導政策最適化について紹介する。
我々は、DGPOが、批判のないアライメントのために、新たな最先端を設定できることを示します。特に、DGPOは、挑戦的なAIME2024とAIME2025ベンチマークで、60.0% Avg@32の精度と46.4% Avg@32の精度をそれぞれ達成します。
論文 参考訳(メタデータ) (2026-05-05T03:36:27Z) - Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation [28.490321270040727]
離散閉ループ軌道からの連続時間政策評価を時間的不均一な力学の下で検討する。
我々は,低次乱数項をキャンセルするモーメントマッチング係数を用いて,多段階遷移から時間依存ジェネレータを推定する。
論文 参考訳(メタデータ) (2026-04-21T01:53:11Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - On Dynamic Programming Theory for Leader-Follower Stochastic Games [10.079626733116612]
LF-GSSG(Lead-follower General-sum Game)は、非対称なコミットメントの下でのシーケンシャルな意思決定をモデル化するゲームである。
本稿では,ベルマンを信頼可能な集合状態の抽象化に適用する動的プログラミングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-05T12:23:56Z) - Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。