論文の概要: Streaming Reinforcement Learning under Partial Observability with Real-Time Recurrent Learning
- arxiv url: http://arxiv.org/abs/2605.24709v1
- Date: Sat, 23 May 2026 19:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.339736
- Title: Streaming Reinforcement Learning under Partial Observability with Real-Time Recurrent Learning
- Title(参考訳): 実時間繰り返し学習による部分観測可能性を考慮したストリーミング強化学習
- Authors: Noah Farr, Aryaman Reddi, Carlo D'Eramo, Jan Peters,
- Abstract要約: ストリーミング強化学習は、データを漸進的に処理する自然言語学習エージェントの制約に適合するオンライン学習パラダイムとして登場した。
本稿では,パラメータカウントにおける線形時間とメモリの複雑さの正確なRTRLを実現するために,対角的リカレントアーキテクチャを提案する。
我々は,リプレイバッファやバッチ更新を使わずに,マスクした MuJoCo 上でのバッチ処理性能のかなりの部分の回復を示す。
- 参考スコア(独自算出の注目度): 22.705756039708035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming reinforcement learning has emerged as an online learning paradigm that conforms to the restrictions of natural learning agents that process data incrementally, i.e. with a batch size of 1 and no replay buffer. While streaming RL has recently been shown to scale with deep function approximation with full observability, partially observable settings have remained out of reach. Truncated backpropagation through time collapses to a one-step gradient horizon under the streaming setting, and exact real-time recurrent learning is prohibitively expensive. We close this gap using recurrent trace units, a diagonal recurrent architecture that enables exact RTRL with linear time and memory complexity in the parameter count, and show that they integrate cleanly into existing streaming algorithms across both discrete and continuous control. On a MemoryChain diagnostic with chain lengths from 2 to 128, our method sustains performance where streaming TBPTT(1) baselines using feedforward, GRU, and RTU networks collapse. On five POPGym tasks and on partially observable MuJoCo continuous control, the streaming approach is competitive with batched PPO on POPGym and recovers a substantial fraction of batched performance on masked MuJoCo, despite using no replay buffer or batched updates.
- Abstract(参考訳): ストリーミング強化学習は、データを漸進的に処理する自然言語学習エージェントの制約に従うオンライン学習パラダイムとして登場した。
ストリーミングRLは最近、フルオブザーバビリティを備えた深い関数近似でスケールすることが示されているが、部分的にオブザーバブルな設定は手の届かないままである。
時間的逆伝播は、ストリーミング設定の下で1ステップの勾配水平線に崩壊し、正確なリアルタイム再帰学習は違法に高価である。
パラメータカウントにおける線形時間とメモリの複雑さの正確なRTRLを可能にする対角的リカレントアーキテクチャであるリカレントトレースユニットを用いて、このギャップを埋め、離散制御と連続制御の両方で既存のストリーミングアルゴリズムにきれいに統合できることを示します。
チェーン長が2~128のMemoryChain診断では,フィードフォワード,GRU,RTUネットワークを用いてTBPTT(1)ベースラインをストリーミングする性能が維持される。
5つのPOPGymタスクと部分的に監視可能なMuJoCo連続制御では、ストリーミングアプローチはPOPGym上のバッチPPOと競合し、リプレイバッファやバッチ更新を使用しないにもかかわらず、マスクされたMuJoCo上でかなりのバッチパフォーマンスを回復する。
関連論文リスト
- RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO [53.38929612273108]
因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
本稿では,リアルタイム自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントのインターリーブシーケンスに再パッケージするトレーニングタイムテストフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T17:59:30Z) - TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning [5.680044533158534]
連続オフライン強化学習(CORL)は、以前に学習したタスクのパフォーマンスを維持しながら、時間とともに収集されたデータセットから一連のタスクを学習することを目的としている。
本稿では,TinySubNetworks と Decision Transformer に基づく新しい CORL 手法である TSN-Affinity を提案する。
我々は,Atariゲームに基づくベンチマークのアプローチと,Franka Emika Pandaロボットアームによる操作タスクのシミュレーションを評価する。
論文 参考訳(メタデータ) (2026-04-28T17:41:04Z) - Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning [14.799267729619428]
ストリーミング強化学習(RL)では、トランジッションが観察され、1回の更新直後に破棄される。
本稿では,SPR(Self-Predictive Representations)をストリーミングパイプラインに拡張して,観測フレームの有効性を最大化することを提案する。
本稿では,リプレイバッファの欠如による性能ギャップを埋めることで,よりリッチな表現を学習できることを示す。
論文 参考訳(メタデータ) (2026-02-10T04:06:32Z) - Trust Region Continual Learning as an Implicit Meta-Learner [3.705371747297478]
我々は,生産的リプレイとフィッシャー計量信頼領域制約を併用した,エフェトラスト領域連続学習のハイブリッド視点について検討する。
局所近似では,MAMLスタイルの解釈を単一の暗黙的な内部ステップで行うことができた。
これにより、連続学習における創発的なメタラーニング特性が得られる。
論文 参考訳(メタデータ) (2026-02-02T18:19:16Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - ResFlow: Fine-tuning Residual Optical Flow for Event-based High Temporal Resolution Motion Estimation [50.80115710105251]
イベントカメラは、高時間分解能(HTR)モーション推定に重要な可能性を秘めている。
イベントデータを用いてHTR光流を推定するための残差に基づくパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Streaming Deep Reinforcement Learning Finally Works [6.106447284305318]
ストリーミング学習は、リソース制限、通信制限、プライバシに敏感なアプリケーションに理想的だ。
深いRLでは、学習者はたいてい、バッチ更新とバッファの再生を使い、計算コストが高く、ストリーミング学習と互換性がない。
本稿では,バッチRLの予測と制御の両面において,ストリームバリアを克服し,サンプル効率にマッチするストリーム-xアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:00:29Z) - Structured Sparsity Learning for Efficient Video Super-Resolution [99.1632164448236]
我々は、ビデオ超解像(VSR)モデルの特性に応じて、構造化スパシティ学習(SSL)と呼ばれる構造化プルーニング手法を開発する。
SSLでは,残差ブロック,リカレントネットワーク,アップサンプリングネットワークなど,VSRモデルのいくつかの重要なコンポーネントに対するプルーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-06-15T17:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。