論文の概要: Model-Agnostic Solutions for Deep Reinforcement Learning in Non-Ergodic Contexts
- arxiv url: http://arxiv.org/abs/2601.08726v1
- Date: Tue, 13 Jan 2026 16:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.296251
- Title: Model-Agnostic Solutions for Deep Reinforcement Learning in Non-Ergodic Contexts
- Title(参考訳): 非エルゴディック文脈における深層強化学習のためのモデルに依存しない解法
- Authors: Bert Verbruggen, Arne Vanhoyweghen, Vincent Ginis,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、機械学習における中心的な最適化フレームワークである。
ベルマン方程式は、ほとんどのRLアルゴリズムの中心であり、将来の報酬の期待値の観点から定式化されている。
非エルゴード環境では、アンサンブル平均は個々のエージェントが経験する平均的な成長から分岐する。
- 参考スコア(独自算出の注目度): 3.5577285720638194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) remains a central optimisation framework in machine learning. Although RL agents can converge to optimal solutions, the definition of ``optimality'' depends on the environment's statistical properties. The Bellman equation, central to most RL algorithms, is formulated in terms of expected values of future rewards. However, when ergodicity is broken, long-term outcomes depend on the specific trajectory rather than on the ensemble average. In such settings, the ensemble average diverges from the time-average growth experienced by individual agents, with expected-value formulations yielding systematically suboptimal policies. Prior studies demonstrated that traditional RL architectures fail to recover the true optimum in non-ergodic environments. We extend this analysis to deep RL implementations and show that these, too, produce suboptimal policies under non-ergodic dynamics. Introducing explicit time dependence into the learning process can correct this limitation. By allowing the network's function approximation to incorporate temporal information, the agent can estimate value functions consistent with the process's intrinsic growth rate. This improvement does not require altering the environmental feedback, such as reward transformations or modified objective functions, but arises naturally from the agent's exposure to temporal trajectories. Our results contribute to the growing body of research on reinforcement learning methods for non-ergodic systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、機械学習における中心的な最適化フレームワークである。
RLエージェントは最適解に収束するが、「最適性」の定義は環境の統計的性質に依存する。
ベルマン方程式は、ほとんどのRLアルゴリズムの中心であり、将来の報酬の期待値の観点から定式化されている。
しかし、エルゴディディティが壊れた場合、長期的な結果はアンサンブル平均よりも特定の軌道に依存する。
このような環境では、アンサンブル平均は個々のエージェントが経験する平均的な成長から分岐し、期待値の定式化は体系的に準最適政策をもたらす。
以前の研究では、従来のRLアーキテクチャは非エルゴード環境において真の最適性を回復できないことが示されていた。
我々は、この分析を深いRLの実装にまで拡張し、これらも非エルゴディック力学の下で準最適ポリシーを生成することを示す。
学習プロセスに明示的な時間依存を導入することで、この制限を修正できる。
エージェントは、ネットワークの関数近似に時間的情報を組み込むことで、プロセスの内在的な成長速度と整合した値関数を推定することができる。
この改善は報酬変換や修正目的関数などの環境フィードバックを変更する必要はないが、エージェントの時間的軌道への露出から自然に生じる。
本研究は,非エルゴディックシステムにおける強化学習手法の研究の進展に寄与する。
関連論文リスト
- In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文 参考訳(メタデータ) (2026-01-06T13:41:31Z) - OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。
コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文 参考訳(メタデータ) (2025-07-16T13:33:31Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations [8.44491527275706]
強化学習の応用分野は、自律運転、精密農業、金融などである。
特に、RL の焦点は典型的には戻り値の期待値である。
我々は,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。