論文の概要: Test-Time Regret Minimization in Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.02282v1
- Date: Tue, 4 Jun 2024 12:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:20:58.028200
- Title: Test-Time Regret Minimization in Meta Reinforcement Learning
- Title(参考訳): メタ強化学習におけるテスト時間レグレスト最小化
- Authors: Mirco Mutti, Aviv Tamar,
- Abstract要約: マルコフ決定過程を通じてモデル化されたタスクの有限集合を様々なダイナミクスで考える。
未知のテストタスクにおける最適方針に対する後悔の最小化に焦点を当てる。
- 参考スコア(独自算出の注目度): 28.710895687701353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta reinforcement learning sets a distribution over a set of tasks on which the agent can train at will, then is asked to learn an optimal policy for any test task efficiently. In this paper, we consider a finite set of tasks modeled through Markov decision processes with various dynamics. We assume to have endured a long training phase, from which the set of tasks is perfectly recovered, and we focus on regret minimization against the optimal policy in the unknown test task. Under a separation condition that states the existence of a state-action pair revealing a task against another, Chen et al. (2022) show that $O(M^2 \log(H))$ regret can be achieved, where $M, H$ are the number of tasks in the set and test episodes, respectively. In our first contribution, we demonstrate that the latter rate is nearly optimal by developing a novel lower bound for test-time regret minimization under separation, showing that a linear dependence with $M$ is unavoidable. Then, we present a family of stronger yet reasonable assumptions beyond separation, which we call strong identifiability, enabling algorithms achieving fast rates $\log (H)$ and sublinear dependence with $M$ simultaneously. Our paper provides a new understanding of the statistical barriers of test-time regret minimization and when fast rates can be achieved.
- Abstract(参考訳): メタ強化学習は、エージェントが自発的に訓練できる一連のタスクに分布を設定し、任意のテストタスクに対して最適なポリシーを効率的に学習するよう求められます。
本稿では,マルコフ決定過程を通じてモデル化されたタスクの有限集合を様々なダイナミクスで考察する。
我々は、タスクセットが完全に回復した長いトレーニングフェーズに耐えたと仮定し、未知のテストタスクにおける最適なポリシーに対する後悔の最小化に焦点をあてる。
他に対してタスクを露呈する状態-作用対の存在を示す分離条件の下で、Chen et al (2022) は、$O(M^2 \log(H))$ regret を達成でき、ここで、$M, H$ は、セットおよびテストエピソードにおけるタスクの数である。
最初のコントリビューションにおいて、後者の速度は分離条件下でのテスト時間最小化のための新しい低限界を開発することでほぼ最適であることが示され、M$での線形依存は避けられないことを示す。
そして、分離を超えたより強く合理的な仮定の族を示し、それは強い識別可能性と呼ばれ、アルゴリズムが高速な速度で$\log (H)$を達成し、同時に$M$のサブ線形依存を可能にする。
本稿は,テストタイムの後悔の最小化の統計的障壁と,いつより速い速度で達成できるかを,新たな知見を提供する。
関連論文リスト
- Settling Constant Regrets in Linear Markov Decision Processes [57.34287648914407]
強化学習(RL)における絶え間ない後悔の保証について検討する。
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation [41.460894569204065]
線形文脈マルコフ決定過程(MDP)の遺残条件における生涯強化学習(RL)について検討する。
本稿では, UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T06:53:28Z) - Multi-task Representation Learning with Stochastic Linear Bandits [29.8208189270894]
線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
論文 参考訳(メタデータ) (2022-02-21T09:26:34Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。
本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。
提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文 参考訳(メタデータ) (2020-10-24T10:44:02Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Task-Robust Model-Agnostic Meta-Learning [42.27488241647739]
本稿では,AML(Model Agnostic Meta-Learning)の目標を改訂することで,「タスク・ロバストネス(task-robustness)」の概念を導入する。
この新しい定式化の解決策は、最も難しいタスクや稀なタスクにも等しく重要となるという意味で、タスクロバストである。
論文 参考訳(メタデータ) (2020-02-12T02:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。