論文の概要: Accelerating Multi-Task Temporal Difference Learning under Low-Rank Representation
- arxiv url: http://arxiv.org/abs/2503.02030v1
- Date: Mon, 03 Mar 2025 20:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:13.495215
- Title: Accelerating Multi-Task Temporal Difference Learning under Low-Rank Representation
- Title(参考訳): 低ランク表現によるマルチタスク時間差学習の高速化
- Authors: Yitao Bai, Sihan Zeng, Justin Romberg, Thinh T. Doan,
- Abstract要約: 低ランク表現環境下でのマルチタスク強化学習(RL)における政策評価問題について検討する。
そこで我々は,TD学習の更新に,いわゆるtruncatedの特異値分解ステップを統合する,新しいTD学習法を提案する。
実験の結果,提案手法は古典的なTD学習よりも優れており,性能差は$r$が減少するにつれて増大することがわかった。
- 参考スコア(独自算出の注目度): 12.732028509861829
- License:
- Abstract: We study policy evaluation problems in multi-task reinforcement learning (RL) under a low-rank representation setting. In this setting, we are given $N$ learning tasks where the corresponding value function of these tasks lie in an $r$-dimensional subspace, with $r<N$. One can apply the classic temporal-difference (TD) learning method for solving these problems where this method learns the value function of each task independently. In this paper, we are interested in understanding whether one can exploit the low-rank structure of the multi-task setting to accelerate the performance of TD learning. To answer this question, we propose a new variant of TD learning method, where we integrate the so-called truncated singular value decomposition step into the update of TD learning. This additional step will enable TD learning to exploit the dominant directions due to the low rank structure to update the iterates, therefore, improving its performance. Our empirical results show that the proposed method significantly outperforms the classic TD learning, where the performance gap increases as the rank $r$ decreases. From the theoretical point of view, introducing the truncated singular value decomposition step into TD learning might cause an instability on the updates. We provide a theoretical result showing that the instability does not happen. Specifically, we prove that the proposed method converges at a rate $\mathcal{O}(\frac{\ln(t)}{t})$, where $t$ is the number of iterations. This rate matches that of the standard TD learning.
- Abstract(参考訳): 低ランク表現環境下でのマルチタスク強化学習(RL)における政策評価問題について検討する。
この設定では、これらのタスクの対応する値関数が$r<N$で、$r<N$となるような学習タスクが与えられる。
従来の時間差分法(TD)学習法を適用して,各タスクの値関数を独立に学習する。
本稿では,TD学習の性能向上のために,マルチタスク設定の低ランク構造を活用できるかどうかを理解することに興味がある。
そこで本研究では,TD学習の更新に,いわゆるtruncatedの特異値分解ステップを統合する,新しいTD学習法を提案する。
この追加ステップにより、低ランク構造のためにTD学習が支配的な方向を活用でき、イテレーションを更新できるため、パフォーマンスが向上する。
実験の結果,提案手法は古典的なTD学習よりも優れており,性能差は$r$が減少するにつれて増大することがわかった。
理論的観点からは、TD学習に切り詰められた特異値分解ステップを導入すると、更新が不安定になる可能性がある。
不安定が起こらないことを示す理論的結果を提供する。
具体的には,提案手法が$\mathcal{O}(\frac{\ln(t)}{t})$で収束することを証明し,$t$は反復数である。
このレートは標準のTD学習と一致している。
関連論文リスト
- Algorithm Design for Continual Learning in IoT Networks [16.35495567193046]
連続学習(CL)は、異なるタスクから連続的に生成されたストリーミングデータに対する新しいオンライン学習技術である。
実用的なIoTネットワークでは、データをサンプリングしてさまざまなタスクを学習する自動運転車は、タスクパターンの順序をルーティングし変更することができる。
論文 参考訳(メタデータ) (2024-12-22T02:36:09Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。
PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文 参考訳(メタデータ) (2021-10-13T17:40:12Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。