論文の概要: Accelerated Online Reinforcement Learning using Auxiliary Start State Distributions
- arxiv url: http://arxiv.org/abs/2507.04606v1
- Date: Mon, 07 Jul 2025 01:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.251322
- Title: Accelerated Online Reinforcement Learning using Auxiliary Start State Distributions
- Title(参考訳): 補助開始状態分布を用いたオンライン強化学習の高速化
- Authors: Aman Mehra, Alexandre Capone, Jeff Schneider,
- Abstract要約: 専門家によるデモンストレーションやシミュレータは任意の状態にリセットできる。
この補助分布の選択を安全の概念を用いて通知することは、学習を著しく加速することを発見した。
- 参考スコア(独自算出の注目度): 50.44719434877687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing problem in online reinforcement learning (RL) is of ensuring sample efficiency, which stems from an inability to explore environments efficiently. Most attempts at efficient exploration tackle this problem in a setting where learning begins from scratch, without prior information available to bootstrap learning. However, such approaches fail to leverage expert demonstrations and simulators that can reset to arbitrary states. These affordances are valuable resources that offer enormous potential to guide exploration and speed up learning. In this paper, we explore how a small number of expert demonstrations and a simulator allowing arbitrary resets can accelerate learning during online RL. We find that training with a suitable choice of an auxiliary start state distribution that may differ from the true start state distribution of the underlying Markov Decision Process can significantly improve sample efficiency. We find that using a notion of safety to inform the choice of this auxiliary distribution significantly accelerates learning. By using episode length information as a way to operationalize this notion, we demonstrate state-of-the-art sample efficiency on a sparse-reward hard-exploration environment.
- Abstract(参考訳): オンライン強化学習(RL)における長年の問題は、環境を効率的に探索できないことに起因するサンプル効率を確保することである。
ほとんどの試みは、ブートストラップ学習のための事前情報なしで、学習がゼロから始まる環境でこの問題に対処する。
しかし、そのような手法は、任意の状態にリセットできる専門家のデモンストレーションやシミュレータを利用することができない。
これらの余裕は、探索をガイドし、学習をスピードアップする大きな可能性を秘めている貴重な資源である。
本稿では、少数の専門家によるデモンストレーションと、任意のリセットが可能なシミュレータがオンラインRLにおける学習を加速する方法について検討する。
マルコフ決定過程の真の開始状態分布とは異なるような補助開始状態分布の適切な選択によるトレーニングは,サンプル効率を著しく向上させることができる。
この補助分布の選択を安全の概念を用いて通知することは、学習を著しく加速することを発見した。
この概念を運用するためにエピソード長情報を用いることで、スパース・リワードハード探索環境における最先端サンプル効率を実証する。
関連論文リスト
- Search-Based Adversarial Estimates for Improving Sample Efficiency in Off-Policy Reinforcement Learning [0.0]
本稿では,この問題を緩和するための新しい,シンプルかつ効率的なアプローチとして,Adversarial Estimatesを提案する。
我々のアプローチは、学習を促進するために、小さな人間の軌道の集合からの潜在類似性探索を活用する。
本研究の結果から,適応推定を用いた学習アルゴリズムは,元のバージョンよりも高速に収束することがわかった。
論文 参考訳(メタデータ) (2025-02-03T17:41:02Z) - A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。