論文の概要: SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.15920v2
- Date: Sun, 22 Sep 2024 22:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 02:07:29.362734
- Title: SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning
- Title(参考訳): SF-DQN:Deep Reinforcement Learningのための継承機能を用いた確率的知識伝達
- Authors: Shuai Zhang, Heshan Devaka Fernando, Miao Liu, Keerthiram Murugesan, Songtao Lu, Pin-Yu Chen, Tianyi Chen, Meng Wang,
- Abstract要約: 本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
- 参考スコア(独自算出の注目度): 89.04776523010409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the transfer reinforcement learning (RL) problem where multiple RL problems have different reward functions but share the same underlying transition dynamics. In this setting, the Q-function of each RL problem (task) can be decomposed into a successor feature (SF) and a reward mapping: the former characterizes the transition dynamics, and the latter characterizes the task-specific reward function. This Q-function decomposition, coupled with a policy improvement operator known as generalized policy improvement (GPI), reduces the sample complexity of finding the optimal Q-function, and thus the SF \& GPI framework exhibits promising empirical performance compared to traditional RL methods like Q-learning. However, its theoretical foundations remain largely unestablished, especially when learning the successor features using deep neural networks (SF-DQN). This paper studies the provable knowledge transfer using SFs-DQN in transfer RL problems. We establish the first convergence analysis with provable generalization guarantees for SF-DQN with GPI. The theory reveals that SF-DQN with GPI outperforms conventional RL approaches, such as deep Q-network, in terms of both faster convergence rate and better generalization. Numerical experiments on real and synthetic RL tasks support the superior performance of SF-DQN \& GPI, aligning with our theoretical findings.
- Abstract(参考訳): 本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピング(前者は遷移ダイナミクスを、後者はタスク固有報酬関数を特徴付ける)に分解することができる。
このQ関数分解は、一般化政策改善(GPI)と呼ばれる政策改善演算子と組み合わせて、最適なQ関数を見つける際のサンプルの複雑さを低減し、SF \& GPIフレームワークは、Q学習のような従来のRL手法と比較して有望な経験的性能を示す。
しかし、その理論的基盤は、特に深層ニューラルネットワーク(SF-DQN)を用いて後継機能を学ぶ際には、ほとんど確立されていない。
本稿では,移動RL問題におけるSFs-DQNを用いた証明可能な知識伝達について検討する。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
この理論は、GPI を持つ SF-DQN が、より高速な収束率とより優れた一般化の両面から、ディープQ-ネットワークのような従来の RL アプローチより優れていることを明らかにしている。
実および合成RLタスクの数値実験により, SF-DQN \& GPIの優れた性能が得られた。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability [0.8192907805418583]
強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。
Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。
また、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。
論文 参考訳(メタデータ) (2024-01-21T18:00:15Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Efficient quantum recurrent reinforcement learning via quantum reservoir
computing [3.6881738506505988]
量子強化学習(QRL)は、シーケンシャルな意思決定タスクを解決するためのフレームワークとして登場した。
本研究は、QRNNベースの量子長短期メモリ(QLSTM)を用いたQRLエージェントの構築により、この課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-13T22:18:38Z) - Quantum deep Q learning with distributed prioritized experience replay [0.8702432681310399]
このフレームワークは、優先度の高いエクスペリエンスリプレイと非同期トレーニングをトレーニングアルゴリズムに組み込んで、サンプリングの複雑さを低減します。
数値シミュレーションにより、QDQN-DPERは、同じモデルアーキテクチャでベースライン分散量子Q学習よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-04-19T13:40:44Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。