論文の概要: Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning
- arxiv url: http://arxiv.org/abs/2512.20220v1
- Date: Tue, 23 Dec 2025 10:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.827118
- Title: Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning
- Title(参考訳): マルチタスク適合Q-IterationとオフラインQ-ラーニングの一般化
- Authors: Kausthubh Manda, Raghuram Bharadwaj Diddigi,
- Abstract要約: 本研究では,複数のタスクが動作値関数の低ランク表現を共有する環境で,オフラインマルチタスク強化学習について検討する。
我々は、共有表現とタスク固有値関数を共同で学習する、適合Q-イテレーションのマルチタスク変種を解析する。
本稿は,マルチタスクオフラインQ-ラーニングにおける共有表現の役割を明らかにし,マルチタスク構造が一般化をいかに改善できるかに関する理論的知見を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study offline multitask reinforcement learning in settings where multiple tasks share a low-rank representation of their action-value functions. In this regime, a learner is provided with fixed datasets collected from several related tasks, without access to further online interaction, and seeks to exploit shared structure to improve statistical efficiency and generalization. We analyze a multitask variant of fitted Q-iteration that jointly learns a shared representation and task-specific value functions via Bellman error minimization on offline data. Under standard realizability and coverage assumptions commonly used in offline reinforcement learning, we establish finite-sample generalization guarantees for the learned value functions. Our analysis explicitly characterizes how pooling data across tasks improves estimation accuracy, yielding a $1/\sqrt{nT}$ dependence on the total number of samples across tasks, while retaining the usual dependence on the horizon and concentrability coefficients arising from distribution shift. In addition, we consider a downstream offline setting in which a new task shares the same underlying representation as the upstream tasks. We study how reusing the representation learned during the multitask phase affects value estimation for this new task, and show that it can reduce the effective complexity of downstream learning relative to learning from scratch. Together, our results clarify the role of shared representations in multitask offline Q-learning and provide theoretical insight into when and how multitask structure can improve generalization in model-free, value-based reinforcement learning.
- Abstract(参考訳): 本研究では,複数のタスクが動作値関数の低ランク表現を共有している環境でのオフラインマルチタスク強化学習について検討する。
この体制では、学習者は、さらなるオンラインインタラクションにアクセスすることなく、いくつかの関連するタスクから収集された固定データセットを備えており、統計効率と一般化を改善するために共有構造を活用しようとしている。
我々は、オフラインデータ上でベルマン誤差最小化によって共有表現とタスク固有値関数を共同で学習する、適合Q-イテレーションのマルチタスク変種を解析する。
オフライン強化学習でよく用いられる標準実現可能性およびカバレッジ仮定に基づき、学習値関数に対する有限サンプル一般化保証を確立する。
本分析では,タスク間のデータプールが推定精度を向上し,タスク間のサンプルの総数に1/\sqrt{nT}$依存すると同時に,分散シフトに起因する水平方向と集中係数の通常の依存性を保ちながら,タスク間のデータプールが推定精度をいかに向上させるかを明らかにした。
さらに、新しいタスクが上流タスクと同じ基盤となる表現を共有するダウンストリームオフライン設定についても検討する。
本研究では,マルチタスクフェーズで学習した表現の再利用が,このタスクの価値推定にどのように影響するかについて検討し,スクラッチからの学習と比較して,下流学習の効果的な複雑さを低減できることを示す。
そこで本研究では,マルチタスクオフラインQ-ラーニングにおける共有表現の役割を明らかにするとともに,モデルレス・バリューベース強化学習において,マルチタスク構造が一般化をいつ,どのように改善できるかに関する理論的知見を提供する。
関連論文リスト
- Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models [10.431923437214719]
VLM(Vision-Language Models)は、新しいタスクを逐次微調整する場合、破滅的な忘れ込みに悩まされる。
本稿では,事前学習時に得られる基礎知識を維持しつつ,新たなタスクの統合を可能にするルーティングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-03T18:39:32Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。