Fugu-MT 論文翻訳(概要): Stabilizing Temporal Difference Learning via Implicit Stochastic Approximation

論文の概要: Stabilizing Temporal Difference Learning via Implicit Stochastic Approximation

arxiv url: http://arxiv.org/abs/2505.01361v1
Date: Fri, 02 May 2025 15:57:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:20.081034
Title: Stabilizing Temporal Difference Learning via Implicit Stochastic Approximation
Title（参考訳）: 確率近似による時間差学習の安定化
Authors: Hwanwoo Kim, Panos Toulis, Eric Laber,
Abstract要約: 時間差分学習(TD)は強化学習における基礎的アルゴリズムである本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。その結果、ロバスト性保証と有限時間誤差境界が確立された。
参考スコア（独自算出の注目度）: 2.1301560294088318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal Difference (TD) learning is a foundational algorithm in reinforcement learning (RL). For nearly forty years, TD learning has served as a workhorse for applied RL as well as a building block for more complex and specialized algorithms. However, despite its widespread use, it is not without drawbacks, the most prominent being its sensitivity to step size. A poor choice of step size can dramatically inflate the error of value estimates and slow convergence. Consequently, in practice, researchers must use trial and error in order to identify a suitable step size -- a process that can be tedious and time consuming. As an alternative, we propose implicit TD algorithms that reformulate TD updates into fixed-point equations. These updates are more stable and less sensitive to step size without sacrificing computational efficiency. Moreover, our theoretical analysis establishes asymptotic convergence guarantees and finite-time error bounds. Our results demonstrate their robustness and practicality for modern RL tasks, establishing implicit TD as a versatile tool for policy evaluation and value approximation.
Abstract（参考訳）: 時間差分学習(TD learning)は、強化学習(RL)の基本アルゴリズムである。約40年間、TD学習は応用RLのためのワークホースとして機能し、より複雑で特殊なアルゴリズムのためのビルディングブロックとして機能してきた。しかし、広く使われているにもかかわらず、欠点がなく、最も顕著なのはステップサイズに対する感度である。ステップサイズの不適切な選択は、評価値の誤差を劇的に減少させ、収束を遅くすることができる。その結果、研究者は試行錯誤を使って適切なステップサイズ(退屈で時間のかかるプロセス)を特定する必要がある。代替として,TD更新を固定点方程式に変換する暗黙的なTDアルゴリズムを提案する。これらの更新はより安定しており、計算効率を犠牲にすることなくステップサイズに敏感である。さらに、我々の理論解析は漸近収束保証と有限時間誤差境界を確立する。本研究は,現代のRLタスクに対するロバスト性と実践性を実証し,政策評価と価値近似のための汎用ツールとして暗黙のTDを確立した。

関連論文リスト

Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Backstepping Temporal Difference Learning [6.663174194579773]
政治外TD学習のための新しい収束アルゴリズムを提案する。本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文参考訳（メタデータ） (2023-02-20T10:06:49Z)
Efficient Meta-Learning for Continual Learning with Taylor Expansion Approximation [2.28438857884398]
連続学習は、非定常分布下で連続的なタスクを処理する際の破滅的な忘れを緩和することを目的としている。本稿では,オンライン連続学習問題を解決するためのメタ学習アルゴリズムを提案する。提案手法は, 最先端手法と比較して, 高い性能, 高い効率を実現している。
論文参考訳（メタデータ） (2022-10-03T04:57:05Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文参考訳（メタデータ） (2021-11-23T18:10:48Z)
PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。 PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文参考訳（メタデータ） (2021-10-13T17:40:12Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文参考訳（メタデータ） (2021-06-21T12:11:39Z)
Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文参考訳（メタデータ） (2021-05-10T06:07:05Z)
Fast Distributionally Robust Learning with Variance Reduced Min-Max Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。 Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文参考訳（メタデータ） (2021-04-27T16:56:09Z)
Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD) [0.0]
Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。私は新しいタイプのtd学習アルゴリズムを提案する。近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
論文参考訳（メタデータ） (2021-04-15T18:54:16Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文参考訳（メタデータ） (2020-11-15T04:05:22Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-01-07T05:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。