論文の概要: Multi-Task Imitation Learning for Linear Dynamical Systems
- arxiv url: http://arxiv.org/abs/2212.00186v1
- Date: Thu, 1 Dec 2022 00:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 17:50:30.690418
- Title: Multi-Task Imitation Learning for Linear Dynamical Systems
- Title(参考訳): 線形力学系に対するマルチタスク模倣学習
- Authors: Thomas T. Zhang, Katie Kang, Bruce D. Lee, Claire Tomlin, Sergey
Levine, Stephen Tu and Nikolai Matni
- Abstract要約: 線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
- 参考スコア(独自算出の注目度): 63.15319689884512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study representation learning for efficient imitation learning over linear
systems. In particular, we consider a setting where learning is split into two
phases: (a) a pre-training step where a shared $k$-dimensional representation
is learned from $H$ source policies, and (b) a target policy fine-tuning step
where the learned representation is used to parameterize the policy class. We
find that the imitation gap over trajectories generated by the learned target
policy is bounded by $\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} +
\frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state
dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$ denotes the
total amount of data collected for each policy during representation learning,
and $N_{\mathrm{target}}$ is the amount of target task data. This result
formalizes the intuition that aggregating data across related tasks to learn a
representation can significantly improve the sample efficiency of learning a
target task. The trends suggested by this bound are corroborated in simulation.
- Abstract(参考訳): 線形システム上での効率的な模倣学習のための表現学習について検討する。
特に,学習を2つの段階に分けて考える。
(a)共有$k$次元表現が$H$ソースポリシーから学習される事前学習ステップ
(b)ポリシークラスをパラメータ化するために学習表現を使用するターゲットポリシーの微調整ステップ。
学習対象ポリシーによって生成されたトラジェクトリの模倣ギャップは、$\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$は、学習中の各ポリシーで収集されたデータの総量を示し、$N_{\mathrm{target}}$はターゲットタスクデータの量である。
この結果は、関連するタスク間でデータを集約して表現を学ぶという直感を定式化することで、対象タスクを学習するサンプル効率を大幅に向上させることができる。
この境界によって示唆される傾向はシミュレーションで裏付けられている。
関連論文リスト
- Metalearning with Very Few Samples Per Task [19.78398372660794]
タスクが共有表現によって関連づけられるバイナリ分類について検討する。
ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。
我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。
論文 参考訳(メタデータ) (2023-12-21T16:06:44Z) - Active Representation Learning for General Task Space with Applications
in Robotics [44.36398212117328]
本稿では,テキスト対話型表現学習のためのアルゴリズムフレームワークを提案する。
この枠組みの下では、双線型および特徴ベースの非線形ケースから一般的な非線形ケースまで、いくつかのインスタンス化を提供する。
我々のアルゴリズムは平均で20%-70%のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-15T08:27:50Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Meta Representation Learning with Contextual Linear Bandits [34.77618818693938]
線形バンディットタスクの設定におけるメタラーニングについて検討する。
学習した表現が未知の表現をうまく推定すると、下流のタスクを効率的に学習できることが示される。
論文 参考訳(メタデータ) (2022-05-30T13:43:53Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。