論文の概要: Stagewise Reinforcement Learning and the Geometry of the Regret Landscape
- arxiv url: http://arxiv.org/abs/2601.07524v1
- Date: Mon, 12 Jan 2026 13:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.404052
- Title: Stagewise Reinforcement Learning and the Geometry of the Regret Landscape
- Title(参考訳): レグレトランドスケープの段階的強化学習と幾何学
- Authors: Chris Elliott, Einar Urdshals, David Quarel, Matthew Farrugia-Roberts, Daniel Murfet,
- Abstract要約: 一般化後続政策の集中は局所学習係数(LLC)によって制御されていることを示す。
我々は、段階的な政策展開を示すグリッドワールド環境において、この予測を実証的に検証する。
特に、LLCは、ポリシーが後悔の観点から同一に見える状態のサブセットで見積もった場合でも、フェーズ遷移を検出し、単にパフォーマンスではなく、基盤となるアルゴリズムの変化を捉えていることを示唆している。
- 参考スコア(独自算出の注目度): 4.437435446826645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singular learning theory characterizes Bayesian learning as an evolving tradeoff between accuracy and complexity, with transitions between qualitatively different solutions as sample size increases. We extend this theory to deep reinforcement learning, proving that the concentration of the generalized posterior over policies is governed by the local learning coefficient (LLC), an invariant of the geometry of the regret function. This theory predicts that Bayesian phase transitions in reinforcement learning should proceed from simple policies with high regret to complex policies with low regret. We verify this prediction empirically in a gridworld environment exhibiting stagewise policy development: phase transitions over SGD training manifest as "opposing staircases" where regret decreases sharply while the LLC increases. Notably, the LLC detects phase transitions even when estimated on a subset of states where the policies appear identical in terms of regret, suggesting it captures changes in the underlying algorithm rather than just performance.
- Abstract(参考訳): 特異学習理論(Singular learning theory)は、ベイズ学習を精度と複雑性の間の進化的なトレードオフとして特徴づけ、サンプルサイズが増加するにつれて定性的に異なる解間の遷移を特徴としている。
我々は、この理論を深い強化学習に拡張し、一般化された後続ポリシーの集中は、後悔関数の幾何学の不変量である局所学習係数(LLC)によって制御されていることを証明した。
この理論は、強化学習におけるベイズ相転移は、後悔の多い単純な政策から後悔の少ない複雑な政策へと進むべきであると予測している。
我々は、段階的な政策展開を示すグリッドワールド環境において、この予測を実証的に検証する。
特に、LLCは、ポリシーが後悔の観点から同一に見える状態のサブセットで見積もった場合でも、フェーズ遷移を検出し、単にパフォーマンスではなく、基礎となるアルゴリズムの変化を捉えていることを示唆している。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design [5.0493593385760756]
深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
有望な解決策の1つは、教師が高い学習可能性を持つタスクを適応的に生成する共進化的フレームワークであるUnsupervised Environment Design (UED)である。
環境設計のための共学習性を考慮した遷移認識レギュレット近似(TRACED)を提案する。
論文 参考訳(メタデータ) (2025-06-24T20:29:24Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Transformation-Invariant Learning and Theoretical Guarantees for OOD Generalization [34.036655200677664]
本稿では、(データ)変換マップのクラスによって、列車とテストの分布を関連付けることができる分散シフト設定に焦点を当てる。
経験的リスク最小化(ERM)に対する学習ルールとアルゴリズムの削減を確立する。
我々は,学習ルールが分配シフトに関するゲーム理論的な視点を提供する点を強調した。
論文 参考訳(メタデータ) (2024-10-30T20:59:57Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。