論文の概要: Single-Trajectory Distributionally Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.11721v1
- Date: Fri, 27 Jan 2023 14:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:27:23.798752
- Title: Single-Trajectory Distributionally Robust Reinforcement Learning
- Title(参考訳): 単軌道分布ロバスト強化学習
- Authors: Zhipeng Liang, Xiaoteng Ma, Jose Blanchet, Jiheng Zhang, Zhengyuan
Zhou
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、人工知能(Artificial General Intelligence, AGI)に繋がる重要な要素と考えられている。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
- 参考スコア(独自算出の注目度): 13.013268095049236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a framework for sequential decision-making, Reinforcement Learning (RL)
has been regarded as an essential component leading to Artificial General
Intelligence (AGI). However, RL is often criticized for having the same
training environment as the test one, which also hinders its application in the
real world. To mitigate this problem, Distributionally Robust RL (DRRL) is
proposed to improve the worst performance in a set of environments that may
contain the unknown test environment. Due to the nonlinearity of the robustness
goal, most of the previous work resort to the model-based approach, learning
with either an empirical distribution learned from the data or a simulator that
can be sampled infinitely, which limits their applications in simple dynamics
environments. In contrast, we attempt to design a DRRL algorithm that can be
trained along a single trajectory, i.e., no repeated sampling from a state.
Based on the standard Q-learning, we propose distributionally robust Q-learning
with the single trajectory (DRQ) and its average-reward variant named
differential DRQ. We provide asymptotic convergence guarantees and experiments
for both settings, demonstrating their superiority in the perturbed
environments against the non-robust ones.
- Abstract(参考訳): 逐次的意思決定の枠組みとして、強化学習(rl)は、人工知能(agi)につながる必須要素とみなされてきた。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
頑健性目標の非線形性のため、以前の研究のほとんどはモデルに基づくアプローチに頼っており、データから学習した経験的分布と無限にサンプリングできるシミュレータを学習することで、単純な動的環境における応用を制限している。
それとは対照的に、単一の軌道に沿ってトレーニング可能なdrrlアルゴリズム、すなわち、状態からの繰り返しサンプリングを行わない設計を試みる。
標準のq-learningに基づいて,single track (drq) を用いた分布的ロバストなq-learningを提案する。
両設定の漸近収束保証と実験を行い、非破壊環境に対する摂動環境におけるそれらの優位性を実証する。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Reinforcement Learning from Diverse Human Preferences [95.61153128294939]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments [31.117949189062895]
予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
論文 参考訳(メタデータ) (2022-05-31T17:15:44Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Replay-Guided Adversarial Environment Design [21.305857977725886]
完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。
我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T01:01:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。