論文の概要: TaSIL: Taylor Series Imitation Learning
- arxiv url: http://arxiv.org/abs/2205.14812v1
- Date: Mon, 30 May 2022 02:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:07:33.268232
- Title: TaSIL: Taylor Series Imitation Learning
- Title(参考訳): TaSIL: Taylorシリーズの模倣学習
- Authors: Daniel Pfrommer, Thomas T.C.K. Zhang, Stephen Tu, Nikolai Matni
- Abstract要約: Taylor Series Imitation Learning (TaSIL) は、標準的な行動クローンの損失に対する単純な拡張である。
TaSILは、学習ポリシーと専門家ポリシーの間の高階テイラー級数における偏差を罰する。
インセンティブ・インプット・トゥ・ステートの安定性という概念を満足する専門家は容易に学習できることが示される。
- 参考スコア(独自算出の注目度): 7.421135890148151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Taylor Series Imitation Learning (TaSIL), a simple augmentation to
standard behavior cloning losses in the context of continuous control. TaSIL
penalizes deviations in the higher-order Taylor series terms between the
learned and expert policies. We show that experts satisfying a notion of
\emph{incremental input-to-state stability} are easy to learn, in the sense
that a small TaSIL-augmented imitation loss over expert trajectories guarantees
a small imitation loss over trajectories generated by the learned policy. We
provide sample-complexity bounds for TaSIL that scale as
$\tilde{\mathcal{O}}(1/n)$ in the realizable setting, for $n$ the number of
expert demonstrations. Finally, we demonstrate experimentally the relationship
between the robustness of the expert policy and the order of Taylor expansion
required in TaSIL, and compare standard Behavior Cloning, DART, and DAgger with
TaSIL-loss-augmented variants. In all cases, we show significant improvement
over baselines across a variety of MuJoCo tasks.
- Abstract(参考訳): そこで我々はTaylor Series Imitation Learning (TaSIL)を提案する。
TaSILは、学習ポリシーと専門家ポリシーの間の高階テイラー級数における偏差を罰する。
本研究は, 入力状態安定の概念を満足する専門家が, 専門家の軌跡に対するtsil-augmentedの小さな模倣損失が, 学習した政策によって生じる軌跡に対する小さな模倣損失を保証するという意味で, 容易に学習できることを示す。
我々は、TaSILのサンプル複素性境界を$\tilde{\mathcal{O}}(1/n)$と、実現可能な設定でスケールし、専門家によるデモンストレーションの回数を$n$とします。
最後に、エキスパートポリシーの堅牢性とTaSILで要求されるTaylor拡張の順序との関係を実験的に実証し、標準的な振舞いクローン、DART、DAggerとTaSILで拡張された変種を比較した。
いずれの場合も、さまざまな MuJoCo タスクのベースラインよりも大幅に改善されている。
関連論文リスト
- In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates [10.438810967483438]
逆強化学習(IRL)は報酬関数とそれに対応するポリシーを学習することを目的としている。
現在のIRLの作業は、学習するために少なくとも1つの完全な軌跡を集めるのを待つ必要があるため、進行中の軌跡から漸進的に学習することはできない。
本稿では,現在進行中の軌跡の初期状態対を観察しながら,報酬関数と対応する政策を学習する問題について考察する。
論文 参考訳(メタデータ) (2024-10-21T03:16:32Z) - An Equivalence Between Static and Dynamic Regret Minimization [10.812831455376218]
線形損失に対して、動的後悔最小化は、拡張決定空間における静的後悔最小化と等価であることを示す。
R_T(u_1,dots,u_T)le tildeという形式の動的後悔を保証するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-06-03T17:54:58Z) - Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement
Learning [31.999352126396904]
我々は、トンプソン・サンプリングが様々な環境で強化学習に関わった最初のベイズ的後悔の限界を証明した。
本研究では,個別のサロゲート環境を用いて学習問題を単純化し,後続の一貫性を用いた情報比の精密な解析を行う。
論文 参考訳(メタデータ) (2023-10-30T20:53:02Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Lower Bounds for Learning in Revealing POMDPs [88.23337313766355]
本稿では, 難易度の高い環境下での強化学習(RL)の基本的限界について検討する。
Emphmulti-steping POMDPs に対して、潜伏状態空間依存はサンプル複雑性において少なくとも$Omega(S1.5)$であることを示す。
論文 参考訳(メタデータ) (2023-02-02T18:59:30Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。