論文の概要: Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control
- arxiv url: http://arxiv.org/abs/2603.08588v1
- Date: Mon, 09 Mar 2026 16:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.500062
- Title: Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control
- Title(参考訳): 継続的制御のためのバッチ・ツー・ストリーミング深層強化学習に向けて
- Authors: Riccardo De Monte, Matteo Cederle, Gian Antonio Susto,
- Abstract要約: 最先端の深部強化学習(RL)手法は連続制御タスクにおいて顕著な性能を達成している。
ディープRLのストリーミングは、純粋なオンライン更新を通じてこの制限に対処し、標準ベンチマークで強力な経験的パフォーマンスを達成する。
本稿では,S2AC(Streaming Soft Actor-Critic)とSDAC(Streaming Deterministic Actor-Critic)の2つの新しいストリーミングディープRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.726701007187284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art deep reinforcement learning (RL) methods have achieved remarkable performance in continuous control tasks, yet their computational complexity is often incompatible with the constraints of resource-limited hardware, due to their reliance on replay buffers, batch updates, and target networks. The emerging paradigm of streaming deep RL addresses this limitation through purely online updates, achieving strong empirical performance on standard benchmarks. In this work, we propose two novel streaming deep RL algorithms, Streaming Soft Actor-Critic (S2AC) and Streaming Deterministic Actor-Critic (SDAC), explicitly designed to be compatible with state-of-the-art batch RL methods, making them particularly suitable for on-device finetuning applications such as Sim2Real transfer. Both algorithms achieve performance comparable to state-of-the-art streaming baselines on standard benchmarks without requiring tedious hyperparameter tuning. Finally, we further investigate the practical challenges of transitioning from batch to streaming learning during finetuning and propose concrete strategies to tackle them.
- Abstract(参考訳): 最先端の深層強化学習(RL)手法は、連続的な制御タスクにおいて顕著な性能を達成したが、その計算複雑性は、リプレイバッファ、バッチ更新、ターゲットネットワークに依存するため、リソース制限ハードウェアの制約と相容れないことが多い。
深層RLストリーミングの新たなパラダイムは、この制限を純粋にオンライン更新を通じて解決し、標準ベンチマーク上での強力な経験的パフォーマンスを実現している。
本研究では,Sim2Real Transferのようなデバイス上での微調整に特に適した,最先端のバッチRL手法と互換性を持つように明示的に設計された,ストリーミングソフトアクタクリティカル(S2AC)とストリーミング決定論的アクタクリティカル(SDAC)の2つの新しいストリーミングディープRLアルゴリズムを提案する。
どちらのアルゴリズムも、退屈なハイパーパラメータチューニングを必要とせずに、標準ベンチマークで最先端のストリーミングベースラインに匹敵するパフォーマンスを達成する。
最後に、ファインタニング中のバッチからストリーミング学習への移行に関する実践的課題について検討し、それに取り組むための具体的な戦略を提案する。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - Streaming Deep Reinforcement Learning Finally Works [6.106447284305318]
ストリーミング学習は、リソース制限、通信制限、プライバシに敏感なアプリケーションに理想的だ。
深いRLでは、学習者はたいてい、バッチ更新とバッファの再生を使い、計算コストが高く、ストリーミング学習と互換性がない。
本稿では,バッチRLの予測と制御の両面において,ストリームバリアを克服し,サンプル効率にマッチするストリーム-xアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:00:29Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。