論文の概要: PRISM: A Robust Framework for Skill-based Meta-Reinforcement Learning with Noisy Demonstrations
- arxiv url: http://arxiv.org/abs/2502.03752v2
- Date: Fri, 14 Feb 2025 11:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:23.347322
- Title: PRISM: A Robust Framework for Skill-based Meta-Reinforcement Learning with Noisy Demonstrations
- Title(参考訳): PRISM: 雑音によるメタ強化学習のためのロバストフレームワーク
- Authors: Sanghyeon Lee, Sangjun Bae, Yisak Park, Seungyul Han,
- Abstract要約: スキルベースメタRL(PRISM)の優先的リファインメントを提案する。
PRISMは、ノイズの多いデータに近い探索を統合して、オンライントラジェクトリを生成し、それらをオフラインデータと組み合わせる。
ノイズの影響に対処することにより,雑音や準最適データであっても,長時間の作業において,安定したスキル学習と優れたパフォーマンスを確保できる。
- 参考スコア(独自算出の注目度): 7.074738009603178
- License:
- Abstract: Meta-reinforcement learning (Meta-RL) facilitates rapid adaptation to unseen tasks but faces challenges in long-horizon environments. Skill-based approaches tackle this by decomposing state-action sequences into reusable skills and employing hierarchical decision-making. However, these methods are highly susceptible to noisy offline demonstrations, resulting in unstable skill learning and degraded performance. To overcome this, we propose Prioritized Refinement for Skill-Based Meta-RL (PRISM), a robust framework that integrates exploration near noisy data to generate online trajectories and combines them with offline data. Through prioritization, PRISM extracts high-quality data to learn task-relevant skills effectively. By addressing the impact of noise, our method ensures stable skill learning and achieves superior performance in long-horizon tasks, even with noisy and sub-optimal data.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、目に見えないタスクへの迅速な適応を促進するが、長距離環境における課題に直面する。
スキルベースのアプローチは、ステートアクションシーケンスを再利用可能なスキルに分解し、階層的な意思決定を採用することで、この問題に対処する。
しかし、これらの手法はノイズの多いオフラインデモに非常に敏感であり、不安定なスキル学習と性能低下をもたらす。
これを解決するために、我々は、ノイズの多いデータを探索してオンライントラジェクトリを生成し、それらをオフラインデータと組み合わせる堅牢なフレームワークであるPRISM(Preferitized Refinement for Skill-Based Meta-RL)を提案する。
優先順位付けにより、PRISMは高品質なデータを抽出し、タスク関連スキルを効果的に学習する。
ノイズの影響に対処することにより,本手法は安定したスキル学習を実現し,ノイズや準最適データであっても,長時間のタスクにおいて優れた性能を実現する。
関連論文リスト
- DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。
本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。
MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文 参考訳(メタデータ) (2024-04-04T11:29:05Z) - Towards Automated Knowledge Integration From Human-Interpretable Representations [55.2480439325792]
我々は,情報メタ学習の原理を理論的に導入・動機付けし,自動的かつ制御可能な帰納バイアス選択を可能にする。
データ効率と一般化を改善するための情報メタラーニングのメリットと限界を実証的に示す。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets [15.206465106699293]
近年のオフライン強化学習法は、経験の固定されたデータセットから高性能なポリシーを学習することに成功している。
我々の研究は、この手法を、ほぼ全て最適下雑音からなる膨大なデータセットに拡張する能力を評価する。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-10T03:55:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。