論文の概要: Streaming Deep Reinforcement Learning Finally Works
- arxiv url: http://arxiv.org/abs/2410.14606v1
- Date: Fri, 18 Oct 2024 17:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:24.925093
- Title: Streaming Deep Reinforcement Learning Finally Works
- Title(参考訳): 深層強化学習のストリーミングがついに実現
- Authors: Mohamed Elsayed, Gautham Vasan, A. Rupam Mahmood,
- Abstract要約: ストリーミング学習は、リソース制限、通信制限、プライバシに敏感なアプリケーションに理想的だ。
深いRLでは、学習者はたいてい、バッチ更新とバッファの再生を使い、計算コストが高く、ストリーミング学習と互換性がない。
本稿では,バッチRLの予測と制御の両面において,ストリームバリアを克服し,サンプル効率にマッチするストリーム-xアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.106447284305318
- License:
- Abstract: Natural intelligence processes experience as a continuous stream, sensing, acting, and learning moment-by-moment in real time. Streaming learning, the modus operandi of classic reinforcement learning (RL) algorithms like Q-learning and TD, mimics natural learning by using the most recent sample without storing it. This approach is also ideal for resource-constrained, communication-limited, and privacy-sensitive applications. However, in deep RL, learners almost always use batch updates and replay buffers, making them computationally expensive and incompatible with streaming learning. Although the prevalence of batch deep RL is often attributed to its sample efficiency, a more critical reason for the absence of streaming deep RL is its frequent instability and failure to learn, which we refer to as stream barrier. This paper introduces the stream-x algorithms, the first class of deep RL algorithms to overcome stream barrier for both prediction and control and match sample efficiency of batch RL. Through experiments in Mujoco Gym, DM Control Suite, and Atari Games, we demonstrate stream barrier in existing algorithms and successful stable learning with our stream-x algorithms: stream Q, stream AC, and stream TD, achieving the best model-free performance in DM Control Dog environments. A set of common techniques underlies the stream-x algorithms, enabling their success with a single set of hyperparameters and allowing for easy extension to other algorithms, thereby reviving streaming RL.
- Abstract(参考訳): 自然知性プロセスは、リアルタイムで連続的なストリーム、センシング、行動、学習を経験する。
ストリーミング学習は、Q-learningやTDのような古典的強化学習(RL)アルゴリズムのモードオペラディであり、記憶せずに最新のサンプルを使用することで、自然学習を模倣する。
このアプローチは、リソース制約、通信制限、プライバシに敏感なアプリケーションにも理想的です。
しかし、深いRLでは、学習者はたいてい、バッチ更新とバッファの再生を使い、計算コストが高く、ストリーミング学習と互換性がない。
バッチ深度RLの頻度はサンプル効率に起因することが多いが、ストリーム深度RLが欠如していることのより重要な理由は、しばしば不安定で学習できないことであり、これはストリームバリア(stream barrier)と呼ぶ。
本稿では,バッチRLの予測と制御の両面において,ストリームバリアを克服し,サンプル効率にマッチするストリーム-xアルゴリズムを提案する。
Mujoco Gym、DM Control Suite、Atari Gamesの実験を通じて、既存のアルゴリズムにおけるストリームバリアと、ストリームQ、ストリームAC、ストリームTDといったストリームxアルゴリズムによる安定した学習を実演し、DM Control Dog環境で最高のモデルフリーパフォーマンスを実現する。
ストリームxアルゴリズムの一連の共通技術は、単一のハイパーパラメータセットで成功し、他のアルゴリズムへの容易に拡張できるようにし、ストリーミングRLを復活させる。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Cold Start Streaming Learning for Deep Networks [13.452510519858995]
Cold Start Streaming Learning (CSSL)は、ディープネットワークによるストリーミング学習のための、シンプルなエンドツーエンドのアプローチである。
実験では、CSSLが既存のストリーミング学習のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-09T00:53:19Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。