論文の概要: Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes
- arxiv url: http://arxiv.org/abs/2310.13550v1
- Date: Fri, 20 Oct 2023 14:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:23:49.841484
- Title: Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes
- Title(参考訳): 非マルコフ決定過程におけるマルチタスクRLの確率的メリット
- Authors: Ruiquan Huang, Yuan Cheng, Jing Yang, Vincent Tan, Yingbin Liang
- Abstract要約: マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
- 参考スコア(独自算出の注目度): 56.714690083118406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-task reinforcement learning (RL) under Markov decision processes
(MDPs), the presence of shared latent structures among multiple MDPs has been
shown to yield significant benefits to the sample efficiency compared to
single-task RL. In this paper, we investigate whether such a benefit can extend
to more general sequential decision making problems, such as partially
observable MDPs (POMDPs) and more general predictive state representations
(PSRs). The main challenge here is that the large and complex model space makes
it hard to identify what types of common latent structure of multi-task PSRs
can reduce the model complexity and improve sample efficiency. To this end, we
posit a joint model class for tasks and use the notion of $\eta$-bracketing
number to quantify its complexity; this number also serves as a general metric
to capture the similarity of tasks and thus determines the benefit of
multi-task over single-task RL. We first study upstream multi-task learning
over PSRs, in which all tasks share the same observation and action spaces. We
propose a provably efficient algorithm UMT-PSR for finding near-optimal
policies for all PSRs, and demonstrate that the advantage of multi-task
learning manifests if the joint model class of PSRs has a smaller
$\eta$-bracketing number compared to that of individual single-task learning.
We also provide several example multi-task PSRs with small $\eta$-bracketing
numbers, which reap the benefits of multi-task learning. We further investigate
downstream learning, in which the agent needs to learn a new target task that
shares some commonalities with the upstream tasks via a similarity constraint.
By exploiting the learned PSRs from the upstream, we develop a sample-efficient
algorithm that provably finds a near-optimal policy.
- Abstract(参考訳): マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において、複数のMDP間での共用潜伏構造の存在は、シングルタスクRLと比較してサンプル効率に有意な利益をもたらすことが示されている。
本稿では,そのような利点が,部分可観測型mdp (pomdps) やより一般的な予測状態表現 (psr) といった,より一般的な逐次的意思決定問題に拡張できるかどうかを検討する。
ここでの大きな課題は、大規模で複雑なモデル空間が、マルチタスクPSRの一般的な潜在構造の種類が、モデルの複雑さを減らし、サンプル効率を向上させることを困難にしていることである。
この目的のために、タスクの合同モデルクラスを仮定し、その複雑性を定量化するために$\eta$-bracketing numberという概念を用いる。
我々はまず,すべてのタスクが同じ観察空間と行動空間を共有するpsrによる上流マルチタスク学習について検討した。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるアルゴリズムであるUTT-PSRを提案する。また,PSRの合同モデルクラスが,個別のシングルタスク学習よりもより小さい$\eta$-bracketing数を持つ場合,マルチタスク学習の利点が現れることを示す。
マルチタスク学習の利点を享受できる小さな$\eta$-bracketing数値を持つマルチタスクPSRの例もいくつか提供する。
さらに,類似性制約によって上流タスクと共通点を持つ新しい対象タスクをエージェントが学習する必要がある下流学習についても検討する。
上流から学習したPSRを利用して、ほぼ最適ポリシーを確実に見つけるサンプル効率のアルゴリズムを開発する。
関連論文リスト
- Coreset-Based Task Selection for Sample-Efficient Meta-Reinforcement Learning [1.2952597101899859]
モデル非依存型メタ強化学習(MAML-RL)におけるサンプル効率向上のためのタスク選択の検討
勾配空間におけるタスクの多様性に基づいて,タスクの重み付きサブセットを選択する,コアセットベースのタスク選択手法を提案する。
複数のRLベンチマーク問題にまたがるこの傾向を数値的に検証し,LQRベースラインを越えたタスク選択の利点について考察した。
論文 参考訳(メタデータ) (2025-02-04T14:09:00Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback [12.388205905012423]
人間のフィードバックからの強化学習は、大きな言語モデルの性能向上に寄与している。
我々は、RLHFをコンテキストデュエルバンディット問題として定式化し、共通の線形表現を仮定する。
我々は、$varepsilon-$optimalを達成するために、ソースタスクのサンプルの複雑さを著しく低減することができることを証明した。
論文 参考訳(メタデータ) (2024-05-18T08:29:15Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。