論文の概要: Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.22910v1
- Date: Sun, 28 Dec 2025 12:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.284568
- Title: Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning
- Title(参考訳): Sat-EnQ:信頼性・能率強化学習のための弱Q学習者の満足度
- Authors: Ünver Çiftçi,
- Abstract要約: Sat-EnQは、アグレッシブに最適化する前に、十分に良いことを学習するフレームワークです。
フェーズ1では、初期価値成長を制限する満足度の高い目標の下で、軽量Qネットワークのアンサンブルをトレーニングします。
フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Q-learning algorithms remain notoriously unstable, especially during early training when the maximization operator amplifies estimation errors. Inspired by bounded rationality theory and developmental learning, we introduce Sat-EnQ, a two-phase framework that first learns to be ``good enough'' before optimizing aggressively. In Phase 1, we train an ensemble of lightweight Q-networks under a satisficing objective that limits early value growth using a dynamic baseline, producing diverse, low-variance estimates while avoiding catastrophic overestimation. In Phase 2, the ensemble is distilled into a larger network and fine-tuned with standard Double DQN. We prove theoretically that satisficing induces bounded updates and cannot increase target variance, with a corollary quantifying conditions for substantial reduction. Empirically, Sat-EnQ achieves 3.8x variance reduction, eliminates catastrophic failures (0% vs 50% for DQN), maintains 79% performance under environmental noise}, and requires 2.5x less compute than bootstrapped ensembles. Our results highlight a principled path toward robust reinforcement learning by embracing satisficing before optimization.
- Abstract(参考訳): 深いQ-ラーニングアルゴリズムは、特に最大化演算子が推定誤差を増幅する初期のトレーニングでは、不安定なままである。
有界合理性理論と発達学習にインスパイアされた2相フレームワークであるSat-EnQを紹介します。
第1相では、動的ベースラインを用いて早期価値成長を制限し、破滅的な過大評価を回避しつつ、多種多様な低分散推定を導出する満足度目標の下で軽量Qネットワークのアンサンブルを訓練する。
フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
理論的には、満足度が有界更新を誘導し、目標分散を増大させることが不可能であることを証明している。
実験的に、Sat-EnQは3.8倍の分散還元を実現し、壊滅的な故障(DQNは0%対50%)を排除し、環境騒音下では79%の性能を維持し、ブートストラップされたアンサンブルよりも2.5倍少ない計算を必要とする。
本研究は, 最適化前の満足度を考慮し, 頑健な強化学習への道筋を示すものである。
関連論文リスト
- GB-DQN: Gradient Boosted DQN Models for Non-stationary Reinforcement Learning [0.0]
逐次残差学習によるモデルドリフトに対応する適応型アンサンブル法であるemphGradient-Boosted Deep Q-Networks (GB-DQN)を提案する。
GB-DQNは、単一のQ-ネットワークを再訓練する代わりに、新たな学習者がドリフト後の現在のアンサンブルのベルマン残差を近似するように訓練された付加的なアンサンブルを構築する。
論文 参考訳(メタデータ) (2025-12-18T19:53:50Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Continual Learning With Quasi-Newton Methods [12.55972766570669]
ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWCは、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとしている。
EWCは、非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存する。
我々は,より正確なヘッセン近似を計算するために,疑似ニュートン法を利用するSmpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
論文 参考訳(メタデータ) (2025-03-25T07:45:59Z) - Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。