論文の概要: Provable Multi-Task Reinforcement Learning: A Representation Learning Framework with Low Rank Rewards
- arxiv url: http://arxiv.org/abs/2604.03891v1
- Date: Sat, 04 Apr 2026 23:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.819196
- Title: Provable Multi-Task Reinforcement Learning: A Representation Learning Framework with Low Rank Rewards
- Title(参考訳): Provable Multi-Task Reinforcement Learning:低ランクリワードによる表現学習フレームワーク
- Authors: Yaoze Guo, Shana Moothedath,
- Abstract要約: マルチタスク表現学習(MTRL)は、関連するタスク間で共有潜在表現を学習する手法である。
本稿では,マルチタスク強化学習(RL)におけるMTRLについて検討する。
- 参考スコア(独自算出の注目度): 5.213778368155992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task representation learning (MTRL) is an approach that learns shared latent representations across related tasks, facilitating collaborative learning that improves the overall learning efficiency. This paper studies MTRL for multi-task reinforcement learning (RL), where multiple tasks have the same state-action space and transition probabilities, but different rewards. We consider T linear Markov Decision Processes (MDPs) where the reward functions and transition dynamics admit linear feature embeddings of dimension d. The relatedness among the tasks is captured by a low-rank structure on the reward matrices. Learning shared representations across multiple RL tasks is challenging due to the complex and policy-dependent nature of data that leads to a temporal progression of error. Our approach adopts a reward-free reinforcement learning framework to first learn a data-collection policy. This policy then informs an exploration strategy for estimating the unknown reward matrices. Importantly, the data collected under this well-designed policy enable accurate estimation, which ultimately supports the learning of an near-optimal policy. Unlike existing approaches that rely on restrictive assumptions such as Gaussian features, incoherence conditions, or access to optimal solutions, we propose a low-rank matrix estimation method that operates under more general feature distributions encountered in RL settings. Theoretical analysis establishes that accurate low-rank matrix recovery is achievable under these relaxed assumptions, and we characterize the relationship between representation error and sample complexity. Leveraging the learned representation, we construct near-optimal policies and prove a regret bound. Experimental results demonstrate that our method effectively learns robust shared representations and task dynamics from finite data.
- Abstract(参考訳): マルチタスク表現学習(MTRL、Multi-task representation learning)は、関連するタスク間で共有潜在表現を学習し、全体的な学習効率を改善するための協調学習を促進するアプローチである。
本稿では,マルチタスク強化学習(RL)におけるMTRLについて検討する。
報酬関数と遷移ダイナミクスが次元 d の線型特徴埋め込みを許容する T 線型マルコフ決定過程 (MDPs) を考える。
タスク間の関連性は、報酬行列上の低ランク構造によってキャプチャされる。
複数のRLタスク間で共有表現を学習することは、エラーの時間的進行につながるデータの複雑でポリシーに依存した性質のため、難しい。
我々のアプローチでは、まずデータ収集ポリシーを学ぶために、報酬のない強化学習フレームワークを採用しています。
この方針は未知の報酬行列を推定するための探索戦略を通知する。
重要なことに、このよく設計されたポリシーの下で収集されたデータは正確な推定を可能にし、最終的にはほぼ最適ポリシーの学習をサポートする。
ガウス的特徴、不整合条件、最適解へのアクセスといった制約的な仮定に依存する既存の手法とは異なり、RL設定でより一般的な特徴分布の下で機能する低ランク行列推定法を提案する。
理論的解析により、これらの緩和された仮定の下で正確な低ランク行列回復が達成可能であることが確認され、表現誤差とサンプル複雑性の関係を特徴づける。
学習した表現を活用することで、ほぼ最適のポリシーを構築し、後悔の束縛を証明します。
実験により,本手法は有限データからロバストな共有表現とタスクダイナミクスを効果的に学習することを示した。
関連論文リスト
- Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning [0.0]
本研究では,複数のタスクが動作値関数の低ランク表現を共有する環境で,オフラインマルチタスク強化学習について検討する。
我々は、共有表現とタスク固有値関数を共同で学習する、適合Q-イテレーションのマルチタスク変種を解析する。
本稿は,マルチタスクオフラインQ-ラーニングにおける共有表現の役割を明らかにし,マルチタスク構造が一般化をいかに改善できるかに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2025-12-23T10:20:11Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。