論文の概要: Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.09277v1
- Date: Tue, 12 Aug 2025 18:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.664018
- Title: Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における知識伝達とジャンプ開始のための値関数初期化
- Authors: Soumia Mehimeh,
- Abstract要約: 本稿では,価値関数の初期化を深層強化学習に適用するDQInitを紹介する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトQ値を転送可能な知識ベースとして再利用する。
知識に基づくメカニズムを用いて、これらの伝達された値を未探索領域にソフトに統合し、徐々にエージェントの学習された推定値にシフトする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Value function initialization (VFI) is an effective way to achieve a jumpstart in reinforcement learning (RL) by leveraging value estimates from prior tasks. While this approach is well established in tabular settings, extending it to deep reinforcement learning (DRL) poses challenges due to the continuous nature of the state-action space, the noisy approximations of neural networks, and the impracticality of storing all past models for reuse. In this work, we address these challenges and introduce DQInit, a method that adapts value function initialization to DRL. DQInit reuses compact tabular Q-values extracted from previously solved tasks as a transferable knowledge base. It employs a knownness-based mechanism to softly integrate these transferred values into underexplored regions and gradually shift toward the agent's learned estimates, avoiding the limitations of fixed time decay. Our approach offers a novel perspective on knowledge transfer in DRL by relying solely on value estimates rather than policies or demonstrations, effectively combining the strengths of jumpstart RL and policy distillation while mitigating their drawbacks. Experiments across multiple continuous control tasks demonstrate that DQInit consistently improves early learning efficiency, stability, and overall performance compared to standard initialization and existing transfer techniques.
- Abstract(参考訳): 値関数の初期化(VFI)は、先行タスクの値推定を利用して強化学習(RL)のジャンプスタートを実現する効果的な方法である。
このアプローチは表形式の設定で十分に確立されているが、それを深層強化学習(DRL)に拡張することは、状態-作用空間の継続的な性質、ニューラルネットワークのノイズ近似、過去のモデルをすべて再利用するために保存する非現実性などの問題を引き起こす。
本研究では,これらの課題に対処し,DRLに値関数の初期化を適用するDQInitを導入する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトな表のQ値を転送可能な知識ベースとして再利用する。
未知の領域に移行した値を柔らかく統合し、徐々にエージェントの学習した推定値にシフトし、固定時間減衰の限界を避けるために、既知の機構を用いる。
提案手法は,政策や実証ではなく,価値見積のみに頼ってDRLにおける知識伝達の新たな視点を提供し,その欠点を軽減しつつ,ジャンプスタートRLと政策蒸留の強みを効果的に組み合わせたものである。
複数の連続制御タスクに対する実験は、DQInitが標準初期化や既存の転送技術と比較して、早期学習の効率、安定性、全体的なパフォーマンスを一貫して改善していることを示している。
関連論文リスト
- IDER: IDempotent Experience Replay for Reliable Continual Learning [36.35747221992653]
破滅的忘れは継続学習(CL)における大きな課題である
既存の不確実性を考慮したCL法は、計算オーバーヘッドが高く、主流の再生法と相容れない。
本稿では、繰り返し関数が同じ出力を出力する等等性性に基づく新しいアプローチである、等等性体験再生(IDER)を提案する。
論文 参考訳(メタデータ) (2026-02-28T12:34:18Z) - In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文 参考訳(メタデータ) (2026-01-06T13:41:31Z) - Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer [0.9558392439655014]
本稿では,状態の特徴表現間の正の相関を減少させるために,正規化項を導入する新しいQ-ラーニング手法を提案する。
転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-09-29T15:44:35Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - CODE-CL: Conceptor-Based Gradient Projection for Deep Continual Learning [6.738409533239947]
深層ニューラルネットワークは、タスクを逐次学習する際に破滅的な忘れに苦しむ。
最近のアプローチでは、勾配投影を用いた部分空間の更新が制限されている。
本稿では,Deep Continual Learning (CODE-CL) のための概念ベース勾配予測法を提案する。
論文 参考訳(メタデータ) (2024-11-21T22:31:06Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning [20.07425661382103]
Q$-Aided Conditional Supervised Learningは、RCSLの安定性と$Q$-functionの縫合能力を組み合わせる。
QCSは、トラジェクトリリターンに基づいたRCSLの損失関数に$Q$-aidを適応的に統合する。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep
Ensemble Agents [17.96977778655143]
resetメソッドは、リプレイバッファを保持しながら、ディープRLエージェントの一部または全部の定期的なリセットを実行する。
本稿では,バニラリセット手法の限界に対処するために,深層アンサンブル学習を利用したリセットに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:59:39Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。