論文の概要: DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing
RL Safety
- arxiv url: http://arxiv.org/abs/2305.04727v1
- Date: Mon, 8 May 2023 14:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 14:11:12.949947
- Title: DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing
RL Safety
- Title(参考訳): DEFENDER: デモを用いたDTWによるエピソードフィルタによるRL安全性向上
- Authors: Andr\'e Correia and Lu\'is Alexandre
- Abstract要約: 本稿では,学習中のRLエージェントの安全性を向上させるために,安全で安全性の低いデモセットを活用するタスク非依存手法を提案する。
提案手法はOpenAI GymのMujocoベンチマークと2つの最先端RLアルゴリズムから評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying reinforcement learning agents in the real world can be challenging
due to the risks associated with learning through trial and error. We propose a
task-agnostic method that leverages small sets of safe and unsafe
demonstrations to improve the safety of RL agents during learning. The method
compares the current trajectory of the agent with both sets of demonstrations
at every step, and filters the trajectory if it resembles the unsafe
demonstrations. We perform ablation studies on different filtering strategies
and investigate the impact of the number of demonstrations on performance. Our
method is compatible with any stand-alone RL algorithm and can be applied to
any task. We evaluate our method on three tasks from OpenAI Gym's Mujoco
benchmark and two state-of-the-art RL algorithms. The results demonstrate that
our method significantly reduces the crash rate of the agent while converging
to, and in most cases even improving, the performance of the stand-alone agent.
- Abstract(参考訳): 強化学習エージェントを現実世界に配置するのは、試行錯誤による学習に関わるリスクのために難しい場合がある。
本稿では,学習中のRLエージェントの安全性を向上させるために,安全で安全性の低いデモセットを活用するタスク非依存手法を提案する。
この方法は、エージェントの現在の軌道と各ステップの2つのデモを比較し、安全でないデモに似ていれば軌道をフィルタリングする。
異なるフィルタリング戦略についてアブレーション研究を行い,実演回数が性能に及ぼす影響について検討した。
我々の手法は任意のスタンドアロンRLアルゴリズムと互換性があり、任意のタスクに適用できる。
提案手法はOpenAI GymのMujocoベンチマークと2つの最先端RLアルゴリズムから評価する。
以上の結果から,本手法はエージェントの衝突速度を著しく低減し,ほとんどの場合,スタンドアローンエージェントの性能が向上することが示された。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Ablation Study of How Run Time Assurance Impacts the Training and
Performance of Reinforcement Learning Agents [5.801944210870593]
本研究では,評価ベストプラクティスを用いたアブレーション研究を行い,実行時間保証(RTA)が効果的な学習に与える影響について検討する。
私たちの結論は、安全な強化学習の最も有望な方向性に光を当てました。
論文 参考訳(メタデータ) (2022-07-08T20:15:15Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。