論文の概要: Intentional Updates for Streaming Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.19033v1
- Date: Tue, 21 Apr 2026 03:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.598264
- Title: Intentional Updates for Streaming Reinforcement Learning
- Title(参考訳): ストリーミング強化学習における意図的更新
- Authors: Arsalan Sharifnassab, Mohamed Elsayed, Kris De Asis, A. Rupam Mahmood, Richard S. Sutton,
- Abstract要約: 勾配に基づく学習では、パラメータ単位で選択されたステップサイズは、関数出力のステップ毎の変化を予測できない。
まず、アップデートの意図した結果を指定し、それを実現するステップサイズを解決します。
- 参考スコア(独自算出の注目度): 17.262453188534526
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In gradient-based learning, a step size chosen in parameter units does not produce a predictable per-step change in function output. This often leads to instability in the streaming setting (i.e., batch size=1), where stochasticity is not averaged out and update magnitudes can momentarily become arbitrarily big or small. Instead, we propose intentional updates: first specify the intended outcome of an update and then solve for the step size that approximately achieves it. This strategy has precedent in online supervised linear regression via Normalized Least Mean Squares algorithm, which selects a step size to yield a specified change in the function output proportional to the current error. We extend this principle to streaming deep reinforcement learning by defining appropriate intended outcomes: Intentional TD aims for a fixed fractional reduction of the TD error, and Intentional Policy Gradient aims for a bounded per-step change in the policy, limiting local KL divergence. We propose practical algorithms combining eligibility traces and diagonal scaling. Empirically, these methods yield state-of-the-art streaming performance, frequently performing on par with batch and replay-buffer approaches.
- Abstract(参考訳): 勾配に基づく学習では、パラメータ単位で選択されたステップサイズは、関数出力のステップ毎の変化を予測できない。
これはしばしばストリーミング設定の不安定性(すなわちバッチサイズ=1)を引き起こす。
最初は、アップデートの意図した結果を特定し、その後、ほぼ達成可能なステップサイズを解決します。
この戦略は、オンライン教師付き線形回帰において、正規化リースト平均平方法(英語版)アルゴリズム(英語版)による前例があり、これは現在の誤差に比例した関数の出力に特定の変化をもたらすステップサイズを選択する。
Intentional TD は TD 誤差の固定分数削減を目標とし,Intentional Policy Gradient は局所的な KL の発散を制限することを目的として,この原則をストリーミング深層強化学習に拡張する。
本稿では,可視性トレースと対角スケーリングを組み合わせた実用的なアルゴリズムを提案する。
経験的に、これらの手法は最先端のストリーミング性能をもたらし、バッチやリプレイバッファのアプローチと同等に頻繁に機能する。
関連論文リスト
- Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments [31.754045125599305]
特定の体制における高原は、損失のサンプルベースの推定が、訓練の過程で真の目的のために不十分なプロキシとなるために生じる。
このタイプの学習の停滞に対処する方法には,ステップサイズを縮小するか,更新間で収集されたサンプル数を増やすかの2つがある。
我々は、PPOを100万以上の並列環境に拡張することにより、複雑なオープン化された領域における事前ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-06T08:07:08Z) - Temporal Difference Flows [82.24174052059352]
Geometric Horizon Models (GHMs) は、将来の状態を直接予測することで、魅力的な代替手段を提供する。
既存の手法は、列車時のブートストラップ予測や、長い地平線で高品質な予測を生成するのに苦慮している。
本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:30:07Z) - Deep Minimax Classifiers for Imbalanced Datasets with a Small Number of Minority Samples [5.217870815854702]
本稿では,最低性能クラスのリスクを最小限に抑えるために,新しいミニマックス学習アルゴリズムを提案する。
提案アルゴリズムは証明可能な収束特性を有しており,提案アルゴリズムは既存手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-02-24T08:20:02Z) - Learning to Reach Goals via Diffusion [16.344212996721346]
本稿では,拡散モデルに基づく目標条件強化学習の新たな視点について述べる。
次に、スコア関数に類似したこれらの偏差を逆転させるために、目標条件付きポリシーを学ぶ。
Merlinと呼ばれるこのアプローチは、別の値関数を学ぶことなく、任意の初期状態から特定の目標に到達することができます。
論文 参考訳(メタデータ) (2023-10-04T00:47:02Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。