論文の概要: Deep Transfer $Q$-Learning for Offline Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.04870v1
- Date: Wed, 08 Jan 2025 23:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:35.117326
- Title: Deep Transfer $Q$-Learning for Offline Non-Stationary Reinforcement Learning
- Title(参考訳): オフライン非定常強化学習のためのDeep Transfer $Q$-Learning
- Authors: Jinhang Chai, Elynn Chen, Jianqing Fan,
- Abstract要約: 本稿では,非定常有限水平マルコフ決定過程によってモデル化された動的決定シナリオに対する伝達学習の研究を先導する。
トランスファー可能なRLサンプル'を構築するために、新しい「再重み付きターゲティングプロシージャ'」を導入し、転送深度$Q*$-learning'を提案する。
ニューラルネットワーク近似および遷移密度伝達における伝達学習の解析手法は、より広範な意味を持つ。
- 参考スコア(独自算出の注目度): 3.2839905453386162
- License:
- Abstract: In dynamic decision-making scenarios across business and healthcare, leveraging sample trajectories from diverse populations can significantly enhance reinforcement learning (RL) performance for specific target populations, especially when sample sizes are limited. While existing transfer learning methods primarily focus on linear regression settings, they lack direct applicability to reinforcement learning algorithms. This paper pioneers the study of transfer learning for dynamic decision scenarios modeled by non-stationary finite-horizon Markov decision processes, utilizing neural networks as powerful function approximators and backward inductive learning. We demonstrate that naive sample pooling strategies, effective in regression settings, fail in Markov decision processes.To address this challenge, we introduce a novel ``re-weighted targeting procedure'' to construct ``transferable RL samples'' and propose ``transfer deep $Q^*$-learning'', enabling neural network approximation with theoretical guarantees. We assume that the reward functions are transferable and deal with both situations in which the transition densities are transferable or nontransferable. Our analytical techniques for transfer learning in neural network approximation and transition density transfers have broader implications, extending to supervised transfer learning with neural networks and domain shift scenarios. Empirical experiments on both synthetic and real datasets corroborate the advantages of our method, showcasing its potential for improving decision-making through strategically constructing transferable RL samples in non-stationary reinforcement learning contexts.
- Abstract(参考訳): ビジネスと医療の動的な意思決定シナリオでは、多様な人口からのサンプル軌跡を活用することで、特にサンプルサイズが制限された場合に、特定の対象人口に対する強化学習(RL)性能を著しく向上させることができる。
既存の伝達学習法は主に線形回帰設定に重点を置いているが、強化学習アルゴリズムへの直接的な適用性は欠如している。
本稿では,非定常有限水平マルコフ決定過程によってモデル化された動的決定シナリオに対する伝達学習の先駆者であり,ニューラルネットワークを強力な関数近似器および後方帰納学習として活用する。
本稿では,レグレッション設定に有効なサンプルプール戦略がマルコフ決定プロセスで失敗することを実証し,この課題に対処するために,<transferable RL sample' を構築し,<transfer deep $Q^*$-learning' を提案し,理論的保証付きニューラルネットワーク近似を可能にする新しい 're-weighted targeting procedure' を導入する。
報酬関数は転送可能であり、遷移密度が転送可能あるいは転送不能な状況の両方を扱うと仮定する。
ニューラルネットワーク近似および遷移密度変換における伝達学習の解析手法は、ニューラルネットワークによる教師あり転送学習やドメインシフトシナリオの拡張など、より広範な意味を持つ。
合成データセットと実データセットの両方に関する実証実験は,本手法の利点を裏付けるものであり,非定常強化学習コンテキストにおいて,移動可能なRLサンプルを戦略的に構築することにより,意思決定を改善する可能性を示している。
関連論文リスト
- Features are fate: a theory of transfer learning in high-dimensional regression [23.840251319669907]
対象タスクが事前学習されたモデルの特徴空間で適切に表現されている場合、転送学習はスクラッチからトレーニングに優れることを示す。
本モデルでは, 音源と目標タスクの重なり合う特徴空間が十分に強い場合, 線形転送と微調整の両方で性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:26Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Estimation and inference for transfer learning with high-dimensional
quantile regression [3.4510296013600374]
本研究では,高次元量子レグレッションモデルの枠組みにおける伝達学習手法を提案する。
我々は、微妙に選択された転送可能なソースドメインに基づいて、転送学習推定器の誤差境界を確立する。
データ分割手法を採用することにより、負の転送を回避できる転送可能性検出手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T14:40:19Z) - On The Transferability of Deep-Q Networks [6.822707222147354]
Transfer Learningは、ディープニューラルネットワークのトレーニングの成功を特徴付けるハードルを克服することのできる、効率的な機械学習パラダイムである。
TLの利用は、SL(Supervised Learning)において十分に確立され、成功した訓練実践であるが、DRL(Deep Reinforcement Learning)の適用性は稀である。
本稿では,3種類のDeep-Q NetworksのDRLベンチマークおよび新しい制御タスクセット上での転送可能性について検討する。
論文 参考訳(メタデータ) (2021-10-06T10:29:37Z) - Latent-Optimized Adversarial Neural Transfer for Sarcasm Detection [50.29565896287595]
サーカズム検出のための共通データセットを活用するために,転送学習を適用する。
異なる損失が互いに対応できる汎用的な潜時最適化戦略を提案します。
特に、isarcasmデータセットの以前の状態よりも10.02%の絶対性能向上を達成している。
論文 参考訳(メタデータ) (2021-04-19T13:07:52Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Minimax Lower Bounds for Transfer Learning with Linear and One-hidden
Layer Neural Networks [27.44348371795822]
転送学習の限界を特徴付けるための統計的ミニマックスフレームワークを開発する。
ラベル付きソース数とターゲットデータの関数として,任意のアルゴリズムで達成可能なターゲット一般化誤差に対して,低いバウンドを導出する。
論文 参考訳(メタデータ) (2020-06-16T22:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。