論文の概要: Robust Imitation Learning against Variations in Environment Dynamics
- arxiv url: http://arxiv.org/abs/2206.09314v1
- Date: Sun, 19 Jun 2022 03:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:01:20.703969
- Title: Robust Imitation Learning against Variations in Environment Dynamics
- Title(参考訳): 環境変動に対するロバストな模倣学習
- Authors: Jongseong Chae, Seungyul Han, Whiyoung Jung, Myungsik Cho, Sungho
Choi, Youngchul Sung
- Abstract要約: 本稿では,環境力学が乱れた場合のILの堅牢性を改善するための,堅牢な模倣学習(IL)フレームワークを提案する。
本フレームワークは,サンプル環境における複数の専門家を模倣することにより,様々な動的環境を効果的に扱う。
- 参考スコア(独自算出の注目度): 17.15933046951096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a robust imitation learning (IL) framework that
improves the robustness of IL when environment dynamics are perturbed. The
existing IL framework trained in a single environment can catastrophically fail
with perturbations in environment dynamics because it does not capture the
situation that underlying environment dynamics can be changed. Our framework
effectively deals with environments with varying dynamics by imitating multiple
experts in sampled environment dynamics to enhance the robustness in general
variations in environment dynamics. In order to robustly imitate the multiple
sample experts, we minimize the risk with respect to the Jensen-Shannon
divergence between the agent's policy and each of the sample experts. Numerical
results show that our algorithm significantly improves robustness against
dynamics perturbations compared to conventional IL baselines.
- Abstract(参考訳): 本稿では,環境力学が摂動した場合のilのロバスト性を改善するためのロバスト模倣学習(il)フレームワークを提案する。
単一の環境でトレーニングされた既存のilフレームワークは、環境のダイナミクスを変更することができるという状況を捉えていないため、環境のダイナミクスの摂動によって壊滅的に失敗する可能性がある。
本フレームワークは, サンプル環境力学の複数の専門家を模倣して, 環境力学の全般的な変動の堅牢性を高めることで, 環境の動的変化を効果的に扱う。
複数のサンプルエキスパートをロバストに模倣するために、エージェントのポリシーと各サンプルエキスパートとのjensen-shannonの相違に関して、リスクを最小限に抑える。
その結果,従来のILベースラインに比べて動的摂動に対するロバスト性は著しく向上した。
関連論文リスト
- A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - Dynamic Quality-Diversity Search [2.4797200957733576]
本稿では,環境変化時に過去のソリューションのアーカイブを更新し続けることを目的とした,新規で汎用的な動的QD手法を提案する。
第二に、よく知られたベンチマークに容易に適用可能な動的環境の新たな特徴付けについて、静的タスクから動的環境へ移行するための小さな介入を行った。
論文 参考訳(メタデータ) (2024-04-07T19:00:15Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - SpReME: Sparse Regression for Multi-Environment Dynamic Systems [6.7053978622785415]
本研究では,SpReMEと呼ばれるスパースレグレッションの手法を開発し,複数の環境を基盤とする主要な力学を明らかにする。
提案モデルでは,予測性能を向上した4つの動的システム上で,複数の環境から正しいダイナミクスを捕捉することを示した。
論文 参考訳(メタデータ) (2023-02-12T15:45:50Z) - LEADS: Learning Dynamical Systems that Generalize Across Environments [12.024388048406587]
我々は、モデル一般化を改善するために、既知の環境間の共通点と相違点を活用する新しいフレームワークであるLEADSを提案する。
環境に依存したデータから抽出した知識を活用でき、既知の環境と新しい環境の両方の一般化を向上できることを示す。
論文 参考訳(メタデータ) (2021-06-08T17:28:19Z) - Robust Reconfigurable Intelligent Surfaces via Invariant Risk and Causal
Representations [55.50218493466906]
本稿では,データ分布の変化に伴うロバスト再構成可能なインテリジェントサーフェス(ris)システム設計の問題について検討する。
不変リスク最小化(IRM)の概念を用いて、複数の環境にまたがる不変因果表現を用いて、予測器が各環境に対して同時に最適となるようにする。
予測器を探すためにニューラルネットワークベースのソリューションを採用し、その性能は経験的リスク最小化に基づく設計に対するシミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-05-04T21:36:31Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。