論文の概要: Efficient Imitation Under Misspecification
- arxiv url: http://arxiv.org/abs/2503.13162v1
- Date: Mon, 17 Mar 2025 13:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:17.326465
- Title: Efficient Imitation Under Misspecification
- Title(参考訳): ミス種別による効率的な模倣
- Authors: Nicolas Espinosa-Dice, Sanjiban Choudhury, Wen Sun, Gokul Swamy,
- Abstract要約: 我々は,新たな構造条件,報酬に依存しないポリシ完全性を導入し,対話型ILアルゴリズムに十分であることを示す。
本稿では,対話型ILアルゴリズムのサンプル効率をさらに向上するために,オフラインデータの追加手法を提案する。
- 参考スコア(独自算出の注目度): 17.706710359787056
- License:
- Abstract: Interactive imitation learning (IL) is a powerful paradigm for learning to make sequences of decisions from an expert demonstrating how to perform a task. Prior work in efficient imitation learning has focused on the realizable setting, where the expert's policy lies within the learner's policy class (i.e. the learner can perfectly imitate the expert in all states). However, in practice, perfect imitation of the expert is often impossible due to differences in state information and action space expressiveness (e.g. morphological differences between robots and humans.) In this paper, we consider the more general misspecified setting, where no assumptions are made about the expert policy's realizability. We introduce a novel structural condition, reward-agnostic policy completeness, and prove that it is sufficient for interactive IL algorithms to efficiently avoid the quadratically compounding errors that stymie offline approaches like behavioral cloning. We address an additional practical constraint-the case of limited expert data-and propose a principled method for using additional offline data to further improve the sample-efficiency of interactive IL algorithms. Finally, we empirically investigate the optimal reset distribution in efficient IL under misspecification with a suite of continuous control tasks.
- Abstract(参考訳): インタラクティブな模倣学習(英: Interactive mimicion learning, IL)は、タスクの実行方法を示す専門家による意思決定のシーケンスを学習するための強力なパラダイムである。
効率的な模倣学習における先行研究は、専門家のポリシーが学習者の政策クラス(すなわち、学習者がすべての州で専門家を完璧に模倣できる)に置かれる、実現可能な設定に焦点を当てている。
しかし、実際には、状態情報と行動空間の表現性の違い(例えばロボットと人間の形態的差異)により、専門家の完全な模倣は不可能であることが多い。
本稿では, 新たな構造条件, 報酬に依存しないポリシ完全性を導入し, 対話型ILアルゴリズムが, 動作クローンのようなオフラインアプローチを妨害する二次的複合エラーを効率的に回避するのに十分であることを証明した。
本稿では,専門家データに制限がある場合のさらなる実践的制約に対処し,対話型ILアルゴリズムのサンプル効率をさらに向上させるために,追加のオフラインデータを使用する原理的手法を提案する。
最後に,一連の連続制御タスクと不特定条件下での効率的なILの最適リセット分布を実験的に検討する。
関連論文リスト
- Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。
累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
決定的,定常的な政策を特化して,オンラインILとオフラインILの差が従来考えられていたよりも小さいことを示す。
論文 参考訳(メタデータ) (2024-07-20T23:31:56Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。