論文の概要: Ensemble-based Interactive Imitation Learning
- arxiv url: http://arxiv.org/abs/2312.16860v1
- Date: Thu, 28 Dec 2023 07:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:57:38.105998
- Title: Ensemble-based Interactive Imitation Learning
- Title(参考訳): アンサンブルに基づくインタラクティブ模倣学習
- Authors: Yichen Li, Chicheng Zhang
- Abstract要約: 本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
本稿では,この目標を達成するアルゴリズムフレームワークであるEnsemble-based Interactive Imitation Learning (EIIL)を提案する。
- 参考スコア(独自算出の注目度): 26.821104724576784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study interactive imitation learning, where a learner interactively
queries a demonstrating expert for action annotations, aiming to learn a policy
that has performance competitive with the expert, using as few annotations as
possible. We give an algorithmic framework named Ensemble-based Interactive
Imitation Learning (EIIL) that achieves this goal. Theoretically, we prove that
an oracle-efficient version of EIIL achieves sharp regret guarantee, given
access to samples from some ``explorative'' distribution over states.
Empirically, EIIL notably surpasses online and offline imitation learning
benchmarks in continuous control tasks. Our work opens up systematic
investigations on the benefit of using model ensembles for interactive
imitation learning.
- Abstract(参考訳): 本研究では,対話型模倣学習について検討し,学習者が行動アノテーションの実証的専門家に対話的に質問し,専門家と性能的に競合するポリシーを可能な限り少ないアノテーションで学習することを目的とした。
この目標を達成するためのアルゴリズムフレームワークとして,アンサンブルベースインタラクティブ模倣学習(eiil)を提案する。
理論的には、EIILのオラクル効率のよいバージョンは、状態上の「探索的」分布からサンプルにアクセスすると、鋭い後悔の保証が得られることを証明している。
経験上、eiilはオンラインおよびオフラインの模倣学習ベンチマークを連続制御タスクで上回っている。
本研究は,インタラクティブな模倣学習にモデルアンサンブルを用いることのメリットについて,体系的な調査を行う。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Analyzing Student Strategies In Blended Courses Using Clickstream Data [32.81171098036632]
パターンマイニングと、自然言語処理から借用したモデルを用いて、学生のインタラクションを理解します。
きめ細かいクリックストリームデータは、非商業的な教育支援システムであるDiderotを通じて収集される。
提案手法は,混合コースの低データ設定においても有意な洞察を得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-31T03:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。