論文の概要: Provable Representation Learning for Imitation Learning via Bi-level
Optimization
- arxiv url: http://arxiv.org/abs/2002.10544v1
- Date: Mon, 24 Feb 2020 21:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 02:45:44.792893
- Title: Provable Representation Learning for Imitation Learning via Bi-level
Optimization
- Title(参考訳): バイレベル最適化による模倣学習のための証明可能表現学習
- Authors: Sanjeev Arora, Simon S. Du, Sham Kakade, Yuping Luo, and Nikunj
Saunshi
- Abstract要約: 現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
- 参考スコア(独自算出の注目度): 60.059520774789654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common strategy in modern learning systems is to learn a representation
that is useful for many tasks, a.k.a. representation learning. We study this
strategy in the imitation learning setting for Markov decision processes (MDPs)
where multiple experts' trajectories are available. We formulate representation
learning as a bi-level optimization problem where the "outer" optimization
tries to learn the joint representation and the "inner" optimization encodes
the imitation learning setup and tries to learn task-specific parameters. We
instantiate this framework for the imitation learning settings of behavior
cloning and observation-alone. Theoretically, we show using our framework that
representation learning can provide sample complexity benefits for imitation
learning in both settings. We also provide proof-of-concept experiments to
verify our theory.
- Abstract(参考訳): 現代学習システムにおける一般的な戦略は、多くのタスク、すなわち表現学習に役立つ表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境でこの戦略を研究する。
そこで,「外」最適化が協調表現を学習し,「内」最適化が模倣学習設定を符号化し,タスク固有のパラメータを学習しようとする2段階最適化問題として表現学習を定式化する。
このフレームワークを,行動クローニングと観察学習の模倣学習設定のためにインスタンス化する。
理論的には、表現学習は両方の場面で模倣学習にサンプル複雑性の利点をもたらすことを示す。
また,概念実証実験を行い,理論を検証する。
関連論文リスト
- Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method [7.261306002808739]
特徴学習理論を用いて,素早いフェデレーション学習のための理論的分析フレームワークを構築した。
具体的には,信号学習と雑音記憶の進化を,プロンプトに基づくフェデレーション学習で監視する。
本研究では,タスク関連係数とタスク関連係数の比率によって性能を評価することができることを示す。
論文 参考訳(メタデータ) (2024-09-29T08:31:26Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - The Sample Complexity of Teaching-by-Reinforcement on Q-Learning [40.37954633873304]
本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
論文 参考訳(メタデータ) (2020-06-16T17:06:04Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。