論文の概要: Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations
- arxiv url: http://arxiv.org/abs/2310.11335v3
- Date: Thu, 16 Jan 2025 19:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:32.163105
- Title: Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations
- Title(参考訳): 非エルゴード報酬増分による強化学習--エルゴード性変換による堅牢性
- Authors: Dominik Baumann, Erfaun Noorani, James Price, Ole Peters, Colm Connaughton, Thomas B. Schön,
- Abstract要約: 強化学習の応用分野は、自律運転、精密農業、金融などである。
特に、RL の焦点は典型的には戻り値の期待値である。
我々は,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 8.44491527275706
- License:
- Abstract: Envisioned application areas for reinforcement learning (RL) include autonomous driving, precision agriculture, and finance, which all require RL agents to make decisions in the real world. A significant challenge hindering the adoption of RL methods in these domains is the non-robustness of conventional algorithms. In particular, the focus of RL is typically on the expected value of the return. The expected value is the average over the statistical ensemble of infinitely many trajectories, which can be uninformative about the performance of the average individual. For instance, when we have a heavy-tailed return distribution, the ensemble average can be dominated by rare extreme events. Consequently, optimizing the expected value can lead to policies that yield exceptionally high returns with a probability that approaches zero but almost surely result in catastrophic outcomes in single long trajectories. In this paper, we develop an algorithm that lets RL agents optimize the long-term performance of individual trajectories. The algorithm enables the agents to learn robust policies, which we show in an instructive example with a heavy-tailed return distribution and standard RL benchmarks. The key element of the algorithm is a transformation that we learn from data. This transformation turns the time series of collected returns into one for whose increments expected value and the average over a long trajectory coincide. Optimizing these increments results in robust policies.
- Abstract(参考訳): 強化学習(RL)の応用分野には、自律運転、精密農業、金融などが含まれており、実世界での意思決定にはRLエージェントが必要である。
これらの領域におけるRL法の採用を妨げる重要な課題は、従来のアルゴリズムの非ロバスト性である。
特に、RL の焦点は典型的には戻り値の期待値である。
期待値は、無限に多くの軌道の統計的アンサンブルの平均であり、平均的な個人のパフォーマンスについて非形式的である。
例えば、重い尾のリターン分布を持つ場合、アンサンブル平均は稀な極端な事象に支配される。
その結果、期待値の最適化は、ゼロに近づいたとしても、ほぼ確実に1つの長い軌道で破滅的な結果をもたらす確率で、非常に高いリターンをもたらすポリシーにつながる可能性がある。
本稿では,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発する。
このアルゴリズムによりエージェントはロバストなポリシーを学習でき、重み付きリターン分布と標準RLベンチマークを持つインストラクティブな例を示す。
このアルゴリズムの重要な要素は、データから学習する変換です。
この変換は、収集されたリターンの時系列を、期待値の増大と長い軌道上の平均が一致するものに変換する。
これらの増分を最適化することは、堅牢なポリシーをもたらす。
関連論文リスト
- Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。