論文の概要: Recurrent Off-Policy Deep Reinforcement Learning Doesn't Have to be Slow
- arxiv url: http://arxiv.org/abs/2512.20513v1
- Date: Tue, 23 Dec 2025 17:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.940922
- Title: Recurrent Off-Policy Deep Reinforcement Learning Doesn't Have to be Slow
- Title(参考訳): 頻繁なオフポリティディープ強化学習はスローでなくてもよい
- Authors: Tyler Clark, Christine Evers, Jonathon Hare,
- Abstract要約: RISE(Recurrent Integration via Simplified s)は,任意の画像ベースのオフポリティックRL設定において,リカレントネットワークを活用する新しいアプローチである。
我々は,Atariベンチマークを用いて,35.6%の人間正規化乗換平均値(IQM)の性能向上を観測した。
- 参考スコア(独自算出の注目度): 4.951247283741297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent off-policy deep reinforcement learning models achieve state-of-the-art performance but are often sidelined due to their high computational demands. In response, we introduce RISE (Recurrent Integration via Simplified Encodings), a novel approach that can leverage recurrent networks in any image-based off-policy RL setting without significant computational overheads via using both learnable and non-learnable encoder layers. When integrating RISE into leading non-recurrent off-policy RL algorithms, we observe a 35.6% human-normalized interquartile mean (IQM) performance improvement across the Atari benchmark. We analyze various implementation strategies to highlight the versatility and potential of our proposed framework.
- Abstract(参考訳): 繰り返し発生する非政治的な深層強化学習モデルは、最先端のパフォーマンスを達成するが、高い計算要求のため、しばしば傍観される。
RISE(Recurrent Integration via Simplified Encodings)は,学習可能なエンコーダ層と学習不可能なエンコーダ層の両方を用いることで,計算上のオーバーヘッドを伴わずに,任意の画像ベースのオフポリチィRL設定におけるリカレントネットワークを活用する新しい手法である。
RISEを非リカレントな非ポリチレントなRLアルゴリズムに組み込むと、Atariベンチマーク全体で35.6%の人間正規化インタークアタイル平均(IQM)の性能改善が観察される。
提案するフレームワークの汎用性と可能性を強調するために,様々な実装戦略を解析する。
関連論文リスト
- Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning [8.395046547177806]
強化学習 (RL) が注目され, 再生・適用への取り組みが高まっている。
主流のRLフレームワークでは、推論とトレーニングは一般的に同じデバイスにデプロイされる。
本研究では、推論とトレーニングの展開を分離する戦略に戻ります。
従来の同期アーキテクチャを周期的な非同期フレームワークに変換し、各コンポーネントの要求駆動、独立、および弾力的なスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-11-24T08:22:50Z) - Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。
相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。
実験の結果,MARL法は標準単エージェントRLよりも30~300倍効率が向上した。
論文 参考訳(メタデータ) (2025-07-22T05:51:07Z) - Meta-Reinforcement Learning for Fast and Data-Efficient Spectrum Allocation in Dynamic Wireless Networks [1.2940734305933084]
5G/6Gネットワークにおけるスペクトルの動的割り当ては、効率的な資源利用に不可欠である。
従来の深部強化学習(DRL)の適用は、その膨大なサンプルの複雑さのため、しばしば実現不可能である。
エージェントが堅牢な初期ポリシーを学習し、新しい無線シナリオに迅速に適応できるメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-13T21:29:39Z) - Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance [0.0]
強化学習(Reinforcement Learning, RL)は、特に早期訓練において、重度のサンプル非効率性に悩まされる。
本稿では,エキスパートとRLアクションを補間する汎用的かつ簡単なフレームワークであるDynamic Action Interpolation (DAI)を提案する。
理論的解析により,DAIは状態訪問分布を再現し,値関数学習を加速することを示した。
論文 参考訳(メタデータ) (2025-04-26T02:12:02Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。