論文の概要: Understanding Adversarial Imitation Learning in Small Sample Regime: A
Stage-coupled Analysis
- arxiv url: http://arxiv.org/abs/2208.01899v1
- Date: Wed, 3 Aug 2022 08:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:59:37.936395
- Title: Understanding Adversarial Imitation Learning in Small Sample Regime: A
Stage-coupled Analysis
- Title(参考訳): 小標本法における相反的模倣学習の理解--ステージ結合分析
- Authors: Tian Xu, Ziniu Li, Yang Yu, Zhi-Quan Luo
- Abstract要約: ある種の模倣学習アプローチである逆模倣学習(AIL)は、例外的な性能を持つ。
AILは、ロコモーションコントロールのようなタスクにおいて、長期にわたって専門家のパフォーマンスと一致させることができる。
本稿では,TV-AILの模倣ギャップが,計画の地平にかかわらず少なくとも1であることを示す。
- 参考スコア(独自算出の注目度): 24.70187647541753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning learns a policy from expert trajectories. While the expert
data is believed to be crucial for imitation quality, it was found that a kind
of imitation learning approach, adversarial imitation learning (AIL), can have
exceptional performance. With as little as only one expert trajectory, AIL can
match the expert performance even in a long horizon, on tasks such as
locomotion control. There are two mysterious points in this phenomenon. First,
why can AIL perform well with only a few expert trajectories? Second, why does
AIL maintain good performance despite the length of the planning horizon? In
this paper, we theoretically explore these two questions. For a
total-variation-distance-based AIL (called TV-AIL), our analysis shows a
horizon-free imitation gap $\mathcal O(\{\min\{1, \sqrt{|\mathcal S|/N} \})$ on
a class of instances abstracted from locomotion control tasks. Here $|\mathcal
S|$ is the state space size for a tabular Markov decision process, and $N$ is
the number of expert trajectories. We emphasize two important features of our
bound. First, this bound is meaningful in both small and large sample regimes.
Second, this bound suggests that the imitation gap of TV-AIL is at most 1
regardless of the planning horizon. Therefore, this bound can explain the
empirical observation. Technically, we leverage the structure of multi-stage
policy optimization in TV-AIL and present a new stage-coupled analysis via
dynamic programming
- Abstract(参考訳): 模倣学習は専門家の軌跡から政策を学ぶ。
専門家のデータは模擬品質に欠かせないものと考えられているが, 擬似学習手法, 対人模倣学習 (AIL) は, 例外的な性能を有することが判明した。
専門家の軌道は1つしかなく、AILは、移動制御のようなタスクにおいて、長い地平線でも専門家のパフォーマンスと一致させることができる。
この現象には2つの謎点がある。
まず、なぜAILは少数の専門家の軌道でうまく機能するのか?
第二に、AILが計画の地平線の長さに関わらず、なぜ優れたパフォーマンスを維持するのか?
本稿では,この2つの疑問を理論的に探求する。
総変量距離に基づくAIL(TV-AIL)については,移動制御タスクから抽象化されたインスタンスのクラス上で,水平方向のない模倣ギャップ$\mathcal O(\{\min\{1, \sqrt{|\mathcal S|/N} \})を示す。
ここで、$|\mathcal s|$ は表式マルコフ決定プロセスの状態空間サイズであり、$n$ は専門家の軌跡の数である。
境界の2つの重要な特徴を強調します。
第一に、この境界は小さい試料と大きな試料の両方において有意義である。
第2に、この境界は、TV-AILの模倣ギャップが、計画の地平にかかわらず少なくとも1であることを示している。
したがって、この境界は経験的な観察を説明できる。
技術的には,多段階政策最適化の構造をtv-ailで活用し,動的プログラミングによる新しいステージ結合分析を提案する。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching [111.78179839856293]
本稿では,学習者と専門的国家占有者の間の一次ワッサースタイン距離を最小化するために,プライマルワッサースタインDICEを提案する。
我々のフレームワークは SMODICE の一般化であり、$f$-divergence と Wasserstein の最小化を統一する最初の研究である。
論文 参考訳(メタデータ) (2023-11-02T15:41:57Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Provably Efficient Adversarial Imitation Learning with Unknown
Transitions [24.70187647541753]
シミュレーション学習(IL)は、専門家による実証から優れた政策を学ぶための効果的な方法であることが証明されている。
本稿では, 未知遷移の存在下での AIL の理論的基盤について考察する。
我々は,$widetildeO (H3/2 |S|/varepsilon)$と$widetildeO (H3 |S|2 |A|/varepsilon2)$の相互作用複雑性を最小限に設定するアルゴリズムMB-TAILを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:46:41Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Nearly Minimax Optimal Adversarial Imitation Learning with Known and
Unknown Transitions [13.9603281084922]
本論文は、専門家による実証からポリシーを直接最適化する、証明可能な効率のよい敵模倣学習(AIL)アルゴリズムを設計することを目的としている。
TAILと名づけられた遷移型AILアルゴリズムを開発し、既知の遷移条件下では$tildeO(H3/2 |S|/varepsilon)$とする。
特に、MB-TAILは環境と相互作用して経験的遷移モデルを構築し、回復した経験的モデルの下で模倣を行う。
論文 参考訳(メタデータ) (2021-06-19T04:41:33Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。