論文の概要: Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.09277v1
- Date: Tue, 12 Aug 2025 18:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.664018
- Title: Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における知識伝達とジャンプ開始のための値関数初期化
- Authors: Soumia Mehimeh,
- Abstract要約: 本稿では,価値関数の初期化を深層強化学習に適用するDQInitを紹介する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトQ値を転送可能な知識ベースとして再利用する。
知識に基づくメカニズムを用いて、これらの伝達された値を未探索領域にソフトに統合し、徐々にエージェントの学習された推定値にシフトする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Value function initialization (VFI) is an effective way to achieve a jumpstart in reinforcement learning (RL) by leveraging value estimates from prior tasks. While this approach is well established in tabular settings, extending it to deep reinforcement learning (DRL) poses challenges due to the continuous nature of the state-action space, the noisy approximations of neural networks, and the impracticality of storing all past models for reuse. In this work, we address these challenges and introduce DQInit, a method that adapts value function initialization to DRL. DQInit reuses compact tabular Q-values extracted from previously solved tasks as a transferable knowledge base. It employs a knownness-based mechanism to softly integrate these transferred values into underexplored regions and gradually shift toward the agent's learned estimates, avoiding the limitations of fixed time decay. Our approach offers a novel perspective on knowledge transfer in DRL by relying solely on value estimates rather than policies or demonstrations, effectively combining the strengths of jumpstart RL and policy distillation while mitigating their drawbacks. Experiments across multiple continuous control tasks demonstrate that DQInit consistently improves early learning efficiency, stability, and overall performance compared to standard initialization and existing transfer techniques.
- Abstract(参考訳): 値関数の初期化(VFI)は、先行タスクの値推定を利用して強化学習(RL)のジャンプスタートを実現する効果的な方法である。
このアプローチは表形式の設定で十分に確立されているが、それを深層強化学習(DRL)に拡張することは、状態-作用空間の継続的な性質、ニューラルネットワークのノイズ近似、過去のモデルをすべて再利用するために保存する非現実性などの問題を引き起こす。
本研究では,これらの課題に対処し,DRLに値関数の初期化を適用するDQInitを導入する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトな表のQ値を転送可能な知識ベースとして再利用する。
未知の領域に移行した値を柔らかく統合し、徐々にエージェントの学習した推定値にシフトし、固定時間減衰の限界を避けるために、既知の機構を用いる。
提案手法は,政策や実証ではなく,価値見積のみに頼ってDRLにおける知識伝達の新たな視点を提供し,その欠点を軽減しつつ,ジャンプスタートRLと政策蒸留の強みを効果的に組み合わせたものである。
複数の連続制御タスクに対する実験は、DQInitが標準初期化や既存の転送技術と比較して、早期学習の効率、安定性、全体的なパフォーマンスを一貫して改善していることを示している。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - CODE-CL: Conceptor-Based Gradient Projection for Deep Continual Learning [6.738409533239947]
深層ニューラルネットワークは、タスクを逐次学習する際に破滅的な忘れに苦しむ。
最近のアプローチでは、勾配投影を用いた部分空間の更新が制限されている。
本稿では,Deep Continual Learning (CODE-CL) のための概念ベース勾配予測法を提案する。
論文 参考訳(メタデータ) (2024-11-21T22:31:06Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning [20.07425661382103]
Q$-Aided Conditional Supervised Learningは、RCSLの安定性と$Q$-functionの縫合能力を組み合わせる。
QCSは、トラジェクトリリターンに基づいたRCSLの損失関数に$Q$-aidを適応的に統合する。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep
Ensemble Agents [17.96977778655143]
resetメソッドは、リプレイバッファを保持しながら、ディープRLエージェントの一部または全部の定期的なリセットを実行する。
本稿では,バニラリセット手法の限界に対処するために,深層アンサンブル学習を利用したリセットに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:59:39Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。