論文の概要: A Critique of Strictly Batch Imitation Learning
- arxiv url: http://arxiv.org/abs/2110.02063v1
- Date: Tue, 5 Oct 2021 14:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 18:52:33.209017
- Title: A Critique of Strictly Batch Imitation Learning
- Title(参考訳): 厳密なバッチ模倣学習の批判
- Authors: Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu
- Abstract要約: 我々は,政策の「textittrue$ state visitation distribution」から「psuedo-state visitation distribution」がどう切り離されるか,という記法的問題は明らかでないと主張している。
我々は,ジャレットらによって提唱されたパラメータ結合が,行動クローンとは異なり,専門家の方針の不整合推定に繋がる例を構築した。
- 参考スコア(独自算出の注目度): 26.121994149869767
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work by Jarrett et al. attempts to frame the problem of offline
imitation learning (IL) as one of learning a joint energy-based model, with the
hope of out-performing standard behavioral cloning. We suggest that notational
issues obscure how the psuedo-state visitation distribution the authors propose
to optimize might be disconnected from the policy's $\textit{true}$ state
visitation distribution. We further construct natural examples where the
parameter coupling advocated by Jarrett et al. leads to inconsistent estimates
of the expert's policy, unlike behavioral cloning.
- Abstract(参考訳): Jarrettらによる最近の研究は、オフライン模倣学習(IL)の問題を、標準的行動クローニングよりも優れたパフォーマンスを期待して、共同エネルギーベースモデルを学ぶことの1つとして枠組み化しようとする試みである。
本稿では,著者らが提案するプシュード状態の訪問分布が,政策の$\textit{true}$状態の訪問分布からどのように切り離されるか,という問題を明らかにする。
さらに,jarrettらによって提唱されたパラメータ結合が,行動のクローニングとは異なり,専門家の方針の不整合な推定につながるような自然例も構築する。
関連論文リスト
- Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - A Contraction Approach to Model-based Reinforcement Learning [11.701145942745274]
本研究では, 累積報酬の誤差を縮尺法を用いて解析する。
分岐ロールアウトは、このエラーを減らすことができることを証明します。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:03:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。