論文の概要: Hybrid Adversarial Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.02454v1
- Date: Thu, 4 Feb 2021 07:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-06 02:53:58.667439
- Title: Hybrid Adversarial Inverse Reinforcement Learning
- Title(参考訳): ハイブリッド逆逆補強学習
- Authors: Mingqi Yuan, Man-On Pun, Yi Chen, Qi Cao
- Abstract要約: ハイブリッド逆強化学習(HAIRL)というBD-IRLフレームワークを提案する。
HAIRLは、他の類似の最先端(SOTA)アルゴリズムと比較して、より効率的で堅牢である。
- 参考スコア(独自算出の注目度): 8.195477717525069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the problem of the inverse reinforcement
learning (IRL), especially the beyond-demonstrator (BD) IRL. The BD-IRL aims to
not only imitate the expert policy but also extrapolate BD policy based on
finite demonstrations of the expert. Currently, most of the BD-IRL algorithms
are two-stage, which first infer a reward function then learn the policy via
reinforcement learning (RL). Because of the two separate procedures, the
two-stage algorithms have high computation complexity and lack robustness. To
overcome these flaw, we propose a BD-IRL framework entitled hybrid adversarial
inverse reinforcement learning (HAIRL), which successfully integrates the
imitation and exploration into one procedure. The simulation results show that
the HAIRL is more efficient and robust when compared with other similar
state-of-the-art (SOTA) algorithms.
- Abstract(参考訳): 本稿では、逆補強学習(IRL)、特にBD(Beyond-demonstrator)IRLの問題について検討する。
BD-IRLは、専門家ポリシーを模倣するだけでなく、専門家の有限なデモンストレーションに基づいてBDポリシーを外挿することを目指しています。
現在、BD-IRLアルゴリズムのほとんどは2段階であり、まず報酬関数を推論し、強化学習(RL)を通してポリシーを学ぶ。
2つの異なるプロシージャのため、2段階のアルゴリズムは計算の複雑さが高く、堅牢性に欠ける。
これらの欠陥を克服するため,我々は,ハイブリッド逆強化学習 (hybrid adversarial inverse reinforcement learning, hairl) と題するbd-irlフレームワークを提案する。
シミュレーションの結果,HAIRLは他のSOTAアルゴリズムと比較して,より効率的で堅牢であることがわかった。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - A Primal-Dual Algorithm for Hybrid Federated Learning [11.955062839855334]
Fenchel Dualityをベースとした,ハイブリット・フェデレーション・ラーニングのための高速で堅牢なアルゴリズムを提案する。
また、クライアントデータを保護するためのプライバシーの考慮と必要な手順も提供します。
論文 参考訳(メタデータ) (2022-10-14T21:02:04Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。