論文の概要: Provable Benefit of Multitask Representation Learning in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.05900v1
- Date: Mon, 13 Jun 2022 04:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:28:01.168740
- Title: Provable Benefit of Multitask Representation Learning in Reinforcement
Learning
- Title(参考訳): 強化学習におけるマルチタスク表現学習の有益性
- Authors: Yuan Cheng, Songtao Feng, Jing Yang, Hong Zhang, Yingbin Liang
- Abstract要約: 本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
- 参考スコア(独自算出の注目度): 46.11628795660159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As representation learning becomes a powerful technique to reduce sample
complexity in reinforcement learning (RL) in practice, theoretical
understanding of its advantage is still limited. In this paper, we
theoretically characterize the benefit of representation learning under the
low-rank Markov decision process (MDP) model. We first study multitask low-rank
RL (as upstream training), where all tasks share a common representation, and
propose a new multitask reward-free algorithm called REFUEL. REFUEL learns both
the transition kernel and the near-optimal policy for each task, and outputs a
well-learned representation for downstream tasks. Our result demonstrates that
multitask representation learning is provably more sample-efficient than
learning each task individually, as long as the total number of tasks is above
a certain threshold. We then study the downstream RL in both online and offline
settings, where the agent is assigned with a new task sharing the same
representation as the upstream tasks. For both online and offline settings, we
develop a sample-efficient algorithm, and show that it finds a near-optimal
policy with the suboptimality gap bounded by the sum of the estimation error of
the learned representation in upstream and a vanishing term as the number of
downstream samples becomes large. Our downstream results of online and offline
RL further capture the benefit of employing the learned representation from
upstream as opposed to learning the representation of the low-rank model
directly. To the best of our knowledge, this is the first theoretical study
that characterizes the benefit of representation learning in exploration-based
reward-free multitask RL for both upstream and downstream tasks.
- Abstract(参考訳): 表現学習は、実際には強化学習(RL)におけるサンプルの複雑さを低減する強力な手法となり、その利点に関する理論的理解は限定的である。
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
まず,全てのタスクが共通表現を持つマルチタスク低ランクRL(上流トレーニング)について検討し,REFUELと呼ばれる新しいマルチタスク報酬のないアルゴリズムを提案する。
REFUELは、各タスクの遷移カーネルとほぼ最適ポリシーの両方を学び、下流タスクのよく学習された表現を出力する。
その結果、タスクの総数が一定のしきい値を超えている限り、マルチタスク表現学習は各タスクを個別に学習するよりもサンプル効率が高いことが示された。
次に、ダウンストリームRLをオンラインとオフラインの両方の設定で研究し、エージェントにアップストリームタスクと同じ表現を共有する新しいタスクを割り当てる。
オンラインとオフラインの両方の設定で、サンプル効率のよいアルゴリズムを開発し、上流での学習表現の推定誤差と下流のサンプル数が大きくなるにつれて消滅する項の合計によって、サブオプティリティギャップを境界とする最適に近いポリシーを見出す。
オンラインおよびオフラインRLのダウンストリーム結果はさらに、ローランクモデルの表現を直接学習するのではなく、上流から学習した表現を採用するメリットを捉えています。
我々の知る限りでは、上流と下流の両方のタスクに対して探索に基づく報酬なしマルチタスクRLにおける表現学習の利点を特徴づける最初の理論的研究である。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Provable and Efficient Continual Representation Learning [40.78975699391065]
連続学習(CL)では、悲惨なことを忘れずに一連のタスクを学習できるモデルを設計することが目的である。
我々は、新しいタスクが到着するにつれて進化する表現を学習する連続表現学習の課題について研究する。
初期タスクが大きなサンプルサイズと高い"表現多様性"を持つ場合,CLのメリットが示される。
論文 参考訳(メタデータ) (2022-03-03T21:23:08Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。