論文の概要: Regret Analysis of Multi-task Representation Learning for Linear-Quadratic Adaptive Control
- arxiv url: http://arxiv.org/abs/2407.05781v2
- Date: Sat, 27 Jul 2024 13:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:51:41.985925
- Title: Regret Analysis of Multi-task Representation Learning for Linear-Quadratic Adaptive Control
- Title(参考訳): 線形量子適応制御のためのマルチタスク表現学習のレグレト解析
- Authors: Bruce D. Lee, Leonardo F. Toso, Thomas T. Zhang, James Anderson, Nikolai Matni,
- Abstract要約: 線形四元数制御のためのマルチタスク表現学習の後悔を分析した。
探索が"良"な設定では、T$タイムステップ後のエージェントの後悔は$tilde O(sqrtT/H)$とスケールする。
difficult" 探索の設定では、後悔は $tilde O(sqrtd_u d_theta sqrtT + T3/4/H1/5)$, $d_the とスケールする。
- 参考スコア(独自算出の注目度): 3.7603027627883363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation learning is a powerful tool that enables learning over large multitudes of agents or domains by enforcing that all agents operate on a shared set of learned features. However, many robotics or controls applications that would benefit from collaboration operate in settings with changing environments and goals, whereas most guarantees for representation learning are stated for static settings. Toward rigorously establishing the benefit of representation learning in dynamic settings, we analyze the regret of multi-task representation learning for linear-quadratic control. This setting introduces unique challenges. Firstly, we must account for and balance the $\textit{misspecification}$ introduced by an approximate representation. Secondly, we cannot rely on the parameter update schemes of single-task online LQR, for which least-squares often suffices, and must devise a novel scheme to ensure sufficient improvement. We demonstrate that for settings where exploration is "benign", the regret of any agent after $T$ timesteps scales as $\tilde O(\sqrt{T/H})$, where $H$ is the number of agents. In settings with "difficult" exploration, the regret scales as $\tilde O(\sqrt{d_u d_\theta} \sqrt{T} + T^{3/4}/H^{1/5})$, where $d_x$ is the state-space dimension, $d_u$ is the input dimension, and $d_\theta$ is the task-specific parameter count. In both cases, by comparing to the minimax single-task regret $O(\sqrt{d_x d_u^2}\sqrt{T})$, we see a benefit of a large number of agents. Notably, in the difficult exploration case, by sharing a representation across tasks, the effective task-specific parameter count can often be small $d_\theta < d_x d_u$. Lastly, we provide numerical validation of the trends we predict.
- Abstract(参考訳): 表現学習(representation learning)は、すべてのエージェントが共有された学習機能のセットで操作するように強制することによって、多数のエージェントやドメインをまたがる学習を可能にする強力なツールである。
しかしながら、多くのロボティクスやコントロールアプリケーションは、環境や目標を変更する設定で動作しますが、ほとんどの保証は静的な設定で記述されます。
動的セッティングにおける表現学習の利点を厳格に確立するために、線形四元数制御のためのマルチタスク表現学習の後悔を分析した。
この設定にはユニークな課題が伴います。
まず、近似表現によって導入された$\textit{misspecification}$を考慮し、バランスをとる必要がある。
第2に、最小二乗がしばしば十分であるシングルタスクオンラインLQRのパラメータ更新スキームに頼ることができず、十分な改善を確保するために新しいスキームを考案する必要がある。
探索が"良"な設定の場合、$T$タイムステップ後のエージェントの後悔は、$\tilde O(\sqrt{T/H})$とスケールし、$H$はエージェントの数である。
d_x$ は状態空間次元、$d_u$ は入力次元、$d_\theta$ はタスク固有のパラメータカウントである。
どちらの場合も、minimax 単一タスクの後悔 $O(\sqrt{d_x d_u^2}\sqrt{T})$ と比較すると、多数のエージェントの利点が見られる。
特に、難しい調査ケースでは、タスク間で表現を共有することで、効果的なタスク固有のパラメータカウントを小さな$d_\theta < d_x d_u$にすることができる。
最後に,予測する傾向の数値検証を行う。
関連論文リスト
- Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Joint Representation Training in Sequential Tasks with Shared Structure [40.1056491921582]
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
論文 参考訳(メタデータ) (2022-06-24T18:10:00Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - Multitask Online Mirror Descent [35.93027027759005]
MT-OMDは,タスク間で更新を共有して操作するオンラインミラードライザー(OMD)のマルチタスク一般化である。
OMD の重要な2つの例である Online Gradient Descent と Exponentiated Gradient の拡張は、クローズドフォームの更新を楽しみます。
論文 参考訳(メタデータ) (2021-06-04T10:14:57Z) - Near-optimal Representation Learning for Linear Bandits and Linear RL [41.33483293243257]
私たちはまず、次元が$d$の線形バンディットを同時に$M$で演奏する設定を考えます。
これらの包帯は、$k$-次元線型表現を共有するので、$kll d$ と $k ll M$ が成り立つ。
我々は、共有表現を利用して$tildeO(MsqrtdkT + dsqrtkMT )を後悔するサンプル効率のアルゴリズムMTLR-OFULを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:11:53Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。