論文の概要: Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory
- arxiv url: http://arxiv.org/abs/2603.07110v1
- Date: Sat, 07 Mar 2026 08:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.03703
- Title: Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory
- Title(参考訳): 失敗から学ぶ:エピソード記憶を用いた効率的な強化学習制御
- Authors: Chenyang Miao,
- Abstract要約: 我々は、Fureure Episodic Memory Alert (FEMA) と呼ばれる手法を提案する。
FEMAはエピソードメモリモジュールを通じて短水平障害体験を格納する。
FEMAはモデルなし強化学習アルゴリズムと簡単に組み合わせることができる。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved remarkable success in robot learning. However, under challenging exploration and contact-rich dynamics, early-stage training is frequently dominated by premature terminations such as collisions and falls. As a result, learning is overwhelmed by short-horizon, low-return trajectories, which hinder convergence and limit long-horizon exploration. To alleviate this issue, we propose a technique called Failure Episodic Memory Alert (FEMA). FEMA explicitly stores short-horizon failure experiences through an episodic memory module. During interactions, it retrieves similar failure experiences and prevents the robot from recurrently relapsing into unstable states, guiding the policy toward long-horizon trajectories with greater long-term value. FEMA can be combined easily with model-free reinforcement learning algorithms, and yields a substantial sample-efficiency improvement of 33.11% on MuJoCo tasks across several classical RL algorithms. Furthermore, integrating FEMA into a parallelized PPO training pipeline demonstrates its effectiveness on a real-world bipedal robot task.
- Abstract(参考訳): 強化学習はロボット学習において顕著な成功を収めた。
しかし、挑戦的な探索と接触に富む力学の下では、早期訓練は衝突や転倒といった早期の用語によって支配されることが多い。
結果として、学習は短地軸、低地軸の軌道に圧倒され、収束を妨げ、長い地軸探索を制限する。
この問題を軽減するために,Fureure Episodic Memory Alert (FEMA) と呼ばれる手法を提案する。
FEMAはエピソードメモリモジュールを通じて短水平障害体験を明示的に保存する。
相互作用の間、同様の障害経験を回収し、ロボットが不安定な状態に繰り返し再発することを防止し、長期的価値の高い長距離軌道に対するポリシーを導く。
FEMAはモデル無しの強化学習アルゴリズムと簡単に結合することができ、いくつかの古典的RLアルゴリズムでMuJoCoタスクに対して33.11%のサンプル効率改善が得られる。
さらに、FEMAを並列化したPPOトレーニングパイプラインに統合することで、実世界の二足歩行ロボットタスクにおけるその効果を示す。
関連論文リスト
- Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation [48.26705293834693]
FARL(Failure-Aware Offline-to-Online Reinforcement Learning)は、実世界の強化学習における障害を最小限にする新しいパラダイムである。
本研究では,オンライン探索における障害防止のために,世界モデルに基づく安全評論家とオフラインで訓練された回復ポリシーを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-12T18:53:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Multi-Robot Path Planning Combining Heuristics and Multi-Agent
Reinforcement Learning [0.0]
移動過程においては、移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。
従来の方法では、競合を避けるために探索手法を用いて経路を継続的に再設計するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。
本稿では,探索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。
論文 参考訳(メタデータ) (2023-06-02T05:07:37Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Relative velocity-based reward functions for crowd navigation of robots [7.671375709255977]
モバイルロボットの開発において,社会的に許容される基準でクラウド環境をナビゲートする方法は,依然として重要な課題である。
近年の研究では,歩行者の移動速度が向上するにつれて,群集ナビゲーションにおける深層強化学習の有効性が示されているが,学習効果は徐々に低下している。
深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。
論文 参考訳(メタデータ) (2021-12-28T03:49:01Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。