論文の概要: $f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation
Learning
- arxiv url: http://arxiv.org/abs/2010.01207v2
- Date: Thu, 19 Nov 2020 05:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:23:41.621446
- Title: $f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation
Learning
- Title(参考訳): $f$-GAIL:ジェネレーティブ・逆模倣学習のための$f$-divergenceの学習
- Authors: Xin Zhang, Yanhua Li, Ziming Zhang, Zhi-Li Zhang
- Abstract要約: 模倣学習は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。
データ効率を向上して、専門家のポリシーをより正確に回復できるような、専門家によるデモンストレーションのセットを考えてください。
本稿では,新たなGAILモデルである$f$-GAILを提案する。
- 参考スコア(独自算出の注目度): 29.459037918810143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) aims to learn a policy from expert demonstrations
that minimizes the discrepancy between the learner and expert behaviors.
Various imitation learning algorithms have been proposed with different
pre-determined divergences to quantify the discrepancy. This naturally gives
rise to the following question: Given a set of expert demonstrations, which
divergence can recover the expert policy more accurately with higher data
efficiency? In this work, we propose $f$-GAIL, a new generative adversarial
imitation learning (GAIL) model, that automatically learns a discrepancy
measure from the $f$-divergence family as well as a policy capable of producing
expert-like behaviors. Compared with IL baselines with various predefined
divergence measures, $f$-GAIL learns better policies with higher data
efficiency in six physics-based control tasks.
- Abstract(参考訳): イミテーションラーニング(IL)は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。
差分を定量化するために、様々な模擬学習アルゴリズムが事前に決定された分岐を用いて提案されている。
専門家による一連のデモンストレーションが与えられたら、データ効率を向上して専門家のポリシーをより正確に回復できますか?
そこで本研究では,$f$-divergence ファミリーから不一致尺度を自動学習し,専門家のような振る舞いを生成可能なポリシである $f$-gail を提案する。
ILベースラインと様々な事前定義されたばらつき対策を比較すると、$f$-GAILは6つの物理ベースの制御タスクにおいて、より高いデータ効率でより良いポリシーを学習する。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Robust Semi-supervised Learning via $f$-Divergence and $α$-Rényi Divergence [2.9965913883475137]
本稿では,セミ教師付き学習における自己学習に適した経験的リスク関数と正規化手法について検討する。
分岐に根ざした理論的基礎、すなわち$f$-divergences と $alpha$-R'enyi divergence に着想を得て、経験的リスク関数と正規化技法の理解を深めるための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-01T11:16:02Z) - MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - SS-MAIL: Self-Supervised Multi-Agent Imitation Learning [18.283839252425803]
アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)-
BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。
AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。
我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
論文 参考訳(メタデータ) (2021-10-18T01:17:50Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。