論文の概要: The Role of Target Update Frequencies in Q-Learning
- arxiv url: http://arxiv.org/abs/2602.03911v1
- Date: Tue, 03 Feb 2026 15:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.221076
- Title: The Role of Target Update Frequencies in Q-Learning
- Title(参考訳): Q-Learningにおける目標更新頻度の役割
- Authors: Simon Weissmann, Tilman Aach, Benedikt Wille, Sebastian Kassing, Leif Döring,
- Abstract要約: ターゲットネットワーク更新周波数(TUF)は、(深い)Q-ラーニングにおける中央安定化機構である。
周期的目標更新をネスト最適化スキームとして定式化し、各外部反復が不正確なベルマン最適演算子を適用する。
学習過程を通じて最適な目標更新頻度が幾何的に増加することを示す。
- 参考スコア(独自算出の注目度): 4.76285598583384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target network update frequency (TUF) is a central stabilization mechanism in (deep) Q-learning. However, their selection remains poorly understood and is often treated merely as another tunable hyperparameter rather than as a principled design decision. This work provides a theoretical analysis of target fixing in tabular Q-learning through the lens of approximate dynamic programming. We formulate periodic target updates as a nested optimization scheme in which each outer iteration applies an inexact Bellman optimality operator, approximated by a generic inner loop optimizer. Rigorous theory yields a finite-time convergence analysis for the asynchronous sampling setting, specializing to stochastic gradient descent in the inner loop. Our results deliver an explicit characterization of the bias-variance trade-off induced by the target update period, showing how to optimally set this critical hyperparameter. We prove that constant target update schedules are suboptimal, incurring a logarithmic overhead in sample complexity that is entirely avoidable with adaptive schedules. Our analysis shows that the optimal target update frequency increases geometrically over the course of the learning process.
- Abstract(参考訳): ターゲットネットワーク更新周波数(TUF)は、(深い)Q-ラーニングにおける中央安定化機構である。
しかし、それらの選択はいまだにあまり理解されておらず、しばしば原則的な設計決定ではなく、単に調整可能なハイパーパラメータとして扱われる。
この研究は、近似動的プログラミングのレンズを通した表型Qラーニングにおける目標修正の理論解析を提供する。
我々は,周期的目標更新をネスト最適化スキームとして定式化し,各外部反復が一般内部ループ最適化器によって近似された不正確なベルマン最適度演算子を適用した。
剛性理論は、内部ループの確率勾配降下に特化して、非同期サンプリング設定に対する有限時間収束解析をもたらす。
以上の結果から, 目標更新期間によって引き起こされるバイアス分散トレードオフを, この臨界ハイパーパラメータを最適に設定する方法を示す。
一定の目標更新スケジュールが最適以下であることを証明し、適応スケジュールで完全に回避可能なサンプル複雑性の対数的オーバーヘッドを生じさせる。
分析の結果,学習過程を通じて最適目標更新頻度が幾何的に増加することがわかった。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer [30.184978506988767]
我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
論文 参考訳(メタデータ) (2026-01-29T14:05:04Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Reliable Optimization Under Noise in Quantum Variational Algorithms [0.05219568203653522]
有限ショットサンプリングノイズにより,変分量子固有解法が困難であることを示す。
適応的メタヒューリスティックスは最も効果的でレジリエントな戦略である。
論文 参考訳(メタデータ) (2025-11-11T14:21:43Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - Natural Spectral Fusion: p-Exponent Cyclic Scheduling and Early Decision-Boundary Alignment in First-Order Optimization [11.323131201168572]
自然スペクトル融合(NSF: Natural Spectral Fusion: NSF: Reframing training as controllable spectrum coverage and information fusion)を提案する。
NSFには2つの基本原理がある: バランスを動的に低周波と高周波の情報を扱うスペクトルコントローラとして扱う。
循環スケジューリングはテストエラーを一定に低減し、異なる収束挙動を示す。
論文 参考訳(メタデータ) (2025-09-05T00:00:00Z) - Understanding Optimization in Deep Learning with Central Flows [95.5647720254338]
複雑な状態における最適化のダイナミクスを記述できる理論を開発する。
この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Gaussian Process Bandit Optimization of the Thermodynamic Variational
Objective [36.062939523856066]
本稿では,ソートされた離散化点を自動選択するガウス過程帯域最適化手法を提案する。
我々は,帯域最適化が積分点の最小化選択に収束することを理論的に保証する。
本アルゴリズムの実証検証は,変分オートエンコーダとシグモイド・リーフ・ネットワークにおける学習と推論の改善の観点から行われる。
論文 参考訳(メタデータ) (2020-10-29T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。