論文の概要: Implicit Q-Learning and SARSA: Liberating Policy Control from Step-Size Calibration
- arxiv url: http://arxiv.org/abs/2601.18907v1
- Date: Mon, 26 Jan 2026 19:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.038675
- Title: Implicit Q-Learning and SARSA: Liberating Policy Control from Step-Size Calibration
- Title(参考訳): 暗黙のQ-LearningとSARSA:ステップサイズ校正による政策制御の解放
- Authors: Hwanwoo Kim, Eric Laber,
- Abstract要約: ステップサイズが大きすぎると数値が不安定になり、ステップサイズが小きすぎると進行が遅くなる。
固定点方程式として繰り返し更新を行うQ-learningとSARSAの暗黙的な変種を提案する。
我々の非漸近的分析は、暗黙的手法がより広いステップサイズ範囲の安定性を維持することを示した。
- 参考スコア(独自算出の注目度): 1.8477401359673709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning and SARSA are foundational reinforcement learning algorithms whose practical success depends critically on step-size calibration. Step-sizes that are too large can cause numerical instability, while step-sizes that are too small can lead to slow progress. We propose implicit variants of Q-learning and SARSA that reformulate their iterative updates as fixed-point equations. This yields an adaptive step-size adjustment that scales inversely with feature norms, providing automatic regularization without manual tuning. Our non-asymptotic analyses demonstrate that implicit methods maintain stability over significantly broader step-size ranges. Under favorable conditions, it permits arbitrarily large step-sizes while achieving comparable convergence rates. Empirical validation across benchmark environments spanning discrete and continuous state spaces shows that implicit Q-learning and SARSA exhibit substantially reduced sensitivity to step-size selection, achieving stable performance with step-sizes that would cause standard methods to fail.
- Abstract(参考訳): Q-learningとSARSAは、ステップサイズの校正に大きく依存する基礎的強化学習アルゴリズムである。
ステップサイズが大きすぎると数値が不安定になり、ステップサイズが小きすぎると進行が遅くなる。
固定点方程式として繰り返し更新を行うQ-learningとSARSAの暗黙的な変種を提案する。
これにより、適応的なステップサイズ調整が特徴ノルムと逆スケールし、手動チューニングなしで自動正規化を提供する。
我々の非漸近的分析は、暗黙的手法がより広いステップサイズ範囲の安定性を維持することを示した。
有利な条件下では、任意の大きさのステップを許容し、同等の収束率を達成する。
離散的および連続的な状態空間にまたがるベンチマーク環境における実証的な検証は、暗黙的なQ-ラーニングとSARSAがステップサイズ選択に対する感度を著しく低下させ、標準メソッドが失敗するステップサイズで安定したパフォーマンスを達成することを示している。
関連論文リスト
- StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths [49.94623294999562]
量子化対応トレーニング(QAT)は、厳格なメモリとレイテンシの制約の下で大規模モデルをデプロイするために不可欠である。
ストレートスルー推定器(STE)やソフト量子化器に基づく一般的な手法は、しばしばミスマッチ、不安定、高い計算オーバーヘッドに悩まされる。
超低ビット環境でのトレーニングを安定化する統合的で効率的なQATフレームワークであるStableQATを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:00:57Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic [12.837649598521102]
本稿では,連続制御タスクのためのQ-guided STein variational model predictive Actor-Critic (Q-STAC)フレームワークを提案する。
本手法では,学習したQ値を直接目的とする制御シーケンスを最適化し,明示的なコスト関数設計の必要性を解消する。
2次元ナビゲーションとロボット操作タスクの実験は、Q-STACが最先端のアルゴリズムと比較して優れたサンプリング効率、堅牢性、最適性を達成することを示した。
論文 参考訳(メタデータ) (2025-07-09T07:53:53Z) - Data-Driven Exploration for a Class of Continuous-Time Indefinite Linear--Quadratic Reinforcement Learning Problems [6.859965454961918]
本研究では,LQ制御問題に対する強化学習について検討する。
本稿では, モデルフリーでデータ駆動型探索機構を提案し, 批判者によるエントロピー正規化を適応的に調整する。
本手法は,LQ問題のクラスにおいて,最もよく知られたモデルフリーな結果と一致するサブ線形後悔境界を実現する。
論文 参考訳(メタデータ) (2025-07-01T01:09:06Z) - Know What You Don't Know: Uncertainty Calibration of Process Reward Models [6.091078936502421]
プロセス報酬モデル(PRM)は、推論時間スケーリングアルゴリズムの導出において中心的な役割を果たす。
PRMは、部分的推論ステップが正しい最終回答につながる成功確率を過大評価する傾向がある。
PRM出力を調整して真の成功確率に適合させるキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T02:39:26Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。