論文の概要: Non-ergodicity in reinforcement learning: robustness via ergodicity
transformations
- arxiv url: http://arxiv.org/abs/2310.11335v1
- Date: Tue, 17 Oct 2023 15:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:19:38.803804
- Title: Non-ergodicity in reinforcement learning: robustness via ergodicity
transformations
- Title(参考訳): 強化学習における非エルゴード性:エルゴード性変換による堅牢性
- Authors: Dominik Baumann and Erfaun Noorani and James Price and Ole Peters and
Colm Connaughton and Thomas B. Sch\"on
- Abstract要約: 強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
- 参考スコア(独自算出の注目度): 1.4890859968756438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Envisioned application areas for reinforcement learning (RL) include
autonomous driving, precision agriculture, and finance, which all require RL
agents to make decisions in the real world. A significant challenge hindering
the adoption of RL methods in these domains is the non-robustness of
conventional algorithms. In this paper, we argue that a fundamental issue
contributing to this lack of robustness lies in the focus on the expected value
of the return as the sole "correct" optimization objective. The expected value
is the average over the statistical ensemble of infinitely many trajectories.
For non-ergodic returns, this average differs from the average over a single
but infinitely long trajectory. Consequently, optimizing the expected value can
lead to policies that yield exceptionally high returns with probability zero
but almost surely result in catastrophic outcomes. This problem can be
circumvented by transforming the time series of collected returns into one with
ergodic increments. This transformation enables learning robust policies by
optimizing the long-term return for individual agents rather than the average
across infinitely many trajectories. We propose an algorithm for learning
ergodicity transformations from data and demonstrate its effectiveness in an
instructive, non-ergodic environment and on standard RL benchmarks.
- Abstract(参考訳): 強化学習(RL)の応用分野には、自律運転、精密農業、金融などが含まれており、実世界での意思決定にはRLエージェントが必要である。
これらの領域におけるRL法の採用を妨げる重要な課題は、従来のアルゴリズムの非ロバスト性である。
本稿では,ロバスト性の欠如に寄与する根本的な問題は,唯一の「正しい」最適化目標であるリターンの期待値に着目することにあると論じる。
期待値は、無限に多くの軌道の統計的アンサンブルの平均である。
非エルゴード的なリターンの場合、この平均は1つのが無限に長い軌道上の平均と異なる。
その結果、期待値の最適化は、確率ゼロで例外的に高いリターンをもたらすが、ほぼ確実に破滅的な結果をもたらすポリシーにつながる。
この問題は、収集されたリターンの時系列をエルゴディックインクリメントの時系列に変換することで回避できる。
この変換により、無限に多くの軌道にまたがる平均よりも、個々のエージェントの長期的なリターンを最適化することで、堅牢なポリシーを学ぶことができる。
本研究では,データからエルゴード変換を学習するアルゴリズムを提案し,その効果を指示的,非エルゴード環境および標準rlベンチマークで実証する。
関連論文リスト
- Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。