論文の概要: Sequence Model Imitation Learning with Unobserved Contexts
- arxiv url: http://arxiv.org/abs/2208.02225v1
- Date: Wed, 3 Aug 2022 17:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:06:55.375070
- Title: Sequence Model Imitation Learning with Unobserved Contexts
- Title(参考訳): 非観測文脈を用いた系列モデル模倣学習
- Authors: Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu
- Abstract要約: 我々は,専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
政治以外のアプローチは、歴史へのアクセスが与えられた場合、実際には悪化する一方で、政治以外のアプローチでは、歴史を使ってコンテキストを識別できることが示される。
- 参考スコア(独自算出の注目度): 39.4969161422156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider imitation learning problems where the expert has access to a
per-episode context that is hidden from the learner, both in the demonstrations
and at test-time. While the learner might not be able to accurately reproduce
expert behavior early on in an episode, by considering the entire history of
states and actions, they might be able to eventually identify the context and
act as the expert would. We prove that on-policy imitation learning algorithms
(with or without access to a queryable expert) are better equipped to handle
these sorts of asymptotically realizable problems than off-policy methods and
are able to avoid the latching behavior (naive repetition of past actions) that
plagues the latter. We conduct experiments in a toy bandit domain that show
that there exist sharp phase transitions of whether off-policy approaches are
able to match expert performance asymptotically, in contrast to the uniformly
good performance of on-policy approaches. We demonstrate that on several
continuous control tasks, on-policy approaches are able to use history to
identify the context while off-policy approaches actually perform worse when
given access to history.
- Abstract(参考訳): 実演とテスト時間の両方において、専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
学習者はエピソードの早い段階で専門家の行動を正確に再現できないかもしれないが、状態や行動の歴史全体を考慮すれば、最終的にはコンテキストを特定し、専門家が望むように振る舞うことができるかもしれない。
我々は、オンポリティクス模倣学習アルゴリズム(クエリ可能なエキスパートの有無に関わらず)が、オフポリティクス法よりもこのような漸近的に実現可能な問題を扱い、後者を悩ませるラッチ行動(過去の行動の反復)を回避できることを実証する。
本研究は,オモチャ・バンディット・ドメインで実験を行い,オフ・ポリティクス・アプローチが,オン・ポリティクス・アプローチの均一なパフォーマンスとは対照的に,専門家のパフォーマンスと漸近的に一致できるかどうかを示す。
いくつかの連続的な制御タスクにおいて、非政治的アプローチが履歴へのアクセスを与えられた場合、コンテキストを識別するために履歴を使用することができる。
関連論文リスト
- Deconfounded Imitation Learning [19.0922018199264]
本稿では,仮説モデルと潜在条件ポリシーを併用した推論モデルを学習する,デコンファレントな模倣学習アルゴリズムを提案する。
理論と実践において、このアルゴリズムは正しい介入模倣ポリシーに収束し、特定の仮定の下では、大まかに最適な模倣性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。