論文の概要: Sequence Model Imitation Learning with Unobserved Contexts
- arxiv url: http://arxiv.org/abs/2208.02225v1
- Date: Wed, 3 Aug 2022 17:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:06:55.375070
- Title: Sequence Model Imitation Learning with Unobserved Contexts
- Title(参考訳): 非観測文脈を用いた系列モデル模倣学習
- Authors: Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu
- Abstract要約: 我々は,専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
政治以外のアプローチは、歴史へのアクセスが与えられた場合、実際には悪化する一方で、政治以外のアプローチでは、歴史を使ってコンテキストを識別できることが示される。
- 参考スコア(独自算出の注目度): 39.4969161422156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider imitation learning problems where the expert has access to a
per-episode context that is hidden from the learner, both in the demonstrations
and at test-time. While the learner might not be able to accurately reproduce
expert behavior early on in an episode, by considering the entire history of
states and actions, they might be able to eventually identify the context and
act as the expert would. We prove that on-policy imitation learning algorithms
(with or without access to a queryable expert) are better equipped to handle
these sorts of asymptotically realizable problems than off-policy methods and
are able to avoid the latching behavior (naive repetition of past actions) that
plagues the latter. We conduct experiments in a toy bandit domain that show
that there exist sharp phase transitions of whether off-policy approaches are
able to match expert performance asymptotically, in contrast to the uniformly
good performance of on-policy approaches. We demonstrate that on several
continuous control tasks, on-policy approaches are able to use history to
identify the context while off-policy approaches actually perform worse when
given access to history.
- Abstract(参考訳): 実演とテスト時間の両方において、専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
学習者はエピソードの早い段階で専門家の行動を正確に再現できないかもしれないが、状態や行動の歴史全体を考慮すれば、最終的にはコンテキストを特定し、専門家が望むように振る舞うことができるかもしれない。
我々は、オンポリティクス模倣学習アルゴリズム(クエリ可能なエキスパートの有無に関わらず)が、オフポリティクス法よりもこのような漸近的に実現可能な問題を扱い、後者を悩ませるラッチ行動(過去の行動の反復)を回避できることを実証する。
本研究は,オモチャ・バンディット・ドメインで実験を行い,オフ・ポリティクス・アプローチが,オン・ポリティクス・アプローチの均一なパフォーマンスとは対照的に,専門家のパフォーマンスと漸近的に一致できるかどうかを示す。
いくつかの連続的な制御タスクにおいて、非政治的アプローチが履歴へのアクセスを与えられた場合、コンテキストを識別するために履歴を使用することができる。
関連論文リスト
- MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。