論文の概要: Pseudo-Quantized Actor-Critic Algorithm for Robustness to Noisy Temporal Difference Error
- arxiv url: http://arxiv.org/abs/2604.01613v1
- Date: Thu, 02 Apr 2026 04:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.278106
- Title: Pseudo-Quantized Actor-Critic Algorithm for Robustness to Noisy Temporal Difference Error
- Title(参考訳): Pseudo-Quantized Actor-Critic Algorithm for Robustness to noisey Temporal difference Error
- Authors: Taisuke Kobayashi,
- Abstract要約: 強化学習において、時間差(TD)誤差は、値とポリシー関数の最適化に広く採用されている。
対象ネットワークやアンサンブルモデルなどのTD誤差の精度向上のためのヒューリスティックスが導入されている。
本稿では、雑音の多いTDエラーに対して頑健な学習が可能な新しいアルゴリズムを考案し、制御を推論としてベースとしたTD学習アルゴリズムを再検討する。
- 参考スコア(独自算出の注目度): 2.944323057176685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), temporal difference (TD) errors are widely adopted for optimizing value and policy functions. However, since the TD error is defined by a bootstrap method, its computation tends to be noisy and destabilize learning. Heuristics to improve the accuracy of TD errors, such as target networks and ensemble models, have been introduced so far. While these are essential approaches for the current deep RL algorithms, they cause side effects like increased computational cost and reduced learning efficiency. Therefore, this paper revisits the TD learning algorithm based on control as inference, deriving a novel algorithm capable of robust learning against noisy TD errors. First, the distribution model of optimality, a binary random variable, is represented by a sigmoid function. Alongside forward and reverse Kullback-Leibler divergences, this new model derives a robust learning rule: when the sigmoid function saturates with a large TD error probably due to noise, the gradient vanishes, implicitly excluding it from learning. Furthermore, the two divergences exhibit distinct gradient-vanishing characteristics. Building on these analyses, the optimality is decomposed into multiple levels to achieve pseudo-quantization of TD errors, aiming for further noise reduction. Additionally, a Jensen-Shannon divergence-based approach is approximately derived to inherit the characteristics of both divergences. These benefits are verified through RL benchmarks, demonstrating stable learning even when heuristics are insufficient or rewards contain noise.
- Abstract(参考訳): 強化学習(RL)では、時間差(TD)誤差が、値とポリシー関数の最適化に広く採用されている。
しかし、TDエラーはブートストラップ法で定義されるため、その計算はノイズが多く、学習を不安定にする傾向がある。
対象ネットワークやアンサンブルモデルなどのTD誤差の精度向上のためのヒューリスティックスが導入されている。
これらは、現在のディープRLアルゴリズムにとって不可欠なアプローチであるが、計算コストの増加や学習効率の低下といった副作用を引き起こす。
そこで本研究では,ノイズの多いTDエラーに対して頑健な学習が可能な新しいアルゴリズムを考案し,制御を推論としてTD学習アルゴリズムを再検討する。
まず、最適性の分布モデル、二進確率変数はシグモイド関数で表される。
この新モデルは、前向きと逆向きのクルバック・リーブラー(Kullback-Leibler)の相違とともに、ロバストな学習規則(英語版)を導出する: シグモノイド関数がおそらくノイズによって大きなTD誤差で飽和すると、勾配は消え、学習から暗黙的に排除される。
さらに、この2つの発散は、異なる勾配消滅特性を示す。
これらの分析に基づいて、最適性を複数のレベルに分解し、TD誤差の擬似量子化を実現し、さらなるノイズ低減を目指す。
さらに、ジェンセン=シャノンの発散に基づくアプローチは、概して両方の発散の特性を継承するために導かれる。
これらの利点はRLベンチマークを通じて検証され、ヒューリスティックが不十分であったり、報奨がノイズを含む場合であっても安定した学習を示す。
関連論文リスト
- Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error [25.15075119957447]
分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
論文 参考訳(メタデータ) (2023-08-10T02:14:23Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。