論文の概要: ARROW: Augmented Replay for RObust World models
- arxiv url: http://arxiv.org/abs/2603.11395v1
- Date: Thu, 12 Mar 2026 00:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.725877
- Title: ARROW: Augmented Replay for RObust World models
- Title(参考訳): ARROW:RObust Worldモデルのための強化されたリプレイ
- Authors: Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo,
- Abstract要約: 継続的な強化学習は、エージェントが以前に学んだスキルを維持しながら新しいスキルを取得することを課題にしている。
既存のアプローチのほとんどは、破滅的な忘れを緩和するためにバッファを再生するモデルフリーな手法に依存している。
本稿では,DreamerV3 を拡張したモデルベース連続 RL アルゴリズム ARROW を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual reinforcement learning challenges agents to acquire new skills while retaining previously learned ones with the goal of improving performance in both past and future tasks. Most existing approaches rely on model-free methods with replay buffers to mitigate catastrophic forgetting; however, these solutions often face significant scalability challenges due to large memory demands. Drawing inspiration from neuroscience, where the brain replays experiences to a predictive World Model rather than directly to the policy, we present ARROW (Augmented Replay for RObust World models), a model-based continual RL algorithm that extends DreamerV3 with a memory-efficient, distribution-matching replay buffer. Unlike standard fixed-size FIFO buffers, ARROW maintains two complementary buffers: a short-term buffer for recent experiences and a long-term buffer that preserves task diversity through intelligent sampling. We evaluate ARROW on two challenging continual RL settings: Tasks without shared structure (Atari), and tasks with shared structure, where knowledge transfer is possible (Procgen CoinRun variants). Compared to model-free and model-based baselines with replay buffers of the same-size, ARROW demonstrates substantially less forgetting on tasks without shared structure, while maintaining comparable forward transfer. Our findings highlight the potential of model-based RL and bio-inspired approaches for continual reinforcement learning, warranting further research.
- Abstract(参考訳): 継続的な強化学習は、エージェントが過去のタスクと将来のタスクの両方でパフォーマンスを向上させることを目標として、学習したスキルを維持しながら、新しいスキルを取得することを挑戦する。
既存のほとんどのアプローチは、破滅的な忘れを緩和するためにバッファをリプレイするモデルフリーメソッドに依存していますが、大きなメモリ要求のため、これらのソリューションは大きなスケーラビリティの課題に直面します。
神経科学からインスピレーションを得て、脳が直接ポリシーではなく予測的世界モデルに体験をリプレイし、DreamerV3を拡張したモデルベースの連続RLアルゴリズムであるARROW(Augmented Replay for RObust World Model)を提案する。
通常の固定サイズのFIFOバッファとは異なり、ARROWは2つの補完バッファを維持している。
本稿では,共有構造を持たないタスク (Atari) と,知識伝達が可能な共有構造を持つタスク (Procgen CoinRun 変種) の2つの挑戦的連続RL設定において,ARROWを評価した。
同じサイズのリプレイバッファを持つモデルフリーベースラインやモデルベースベースラインと比較して、ARROWは、同じフォワード転送を維持しながら、共有構造なしでタスクを忘れることを大幅に減らしている。
本研究は, モデルベースRLとバイオインスピレーションによる連続的強化学習の可能性に注目し, さらなる研究を保証している。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Buffer replay enhances the robustness of multimodal learning under missing-modality [9.512378886218395]
本稿では,Replay Prompting (REP)を導入し,ネットワークの深さが増大するにつれて情報損失を軽減し,より深い層で再生する。
視覚言語、視覚言語、時間的マルチモーダルベンチマークの実験では、REPはシングルモーダルとマルチモーダルの両方の欠落シナリオにおいて、先行手法よりも一貫して優れていた。
これらの結果から、REPは、欠落したモダリティ環境に挑戦する上で、堅牢なマルチモーダル学習のための軽量かつ効果的なパラダイムとして確立されている。
論文 参考訳(メタデータ) (2025-11-28T10:55:31Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Augmenting Replay in World Models for Continual Reinforcement Learning [0.0]
連続RLは、エージェントが過去のタスクと将来のタスクの両方を改善しながら、以前のタスクを忘れずに新しいタスクを学ぶ必要がある。
最も一般的なアプローチは、モデルフリーのアルゴリズムとリプレイバッファを使って破滅的な忘れを軽減している。
WMAR(World Models with Augmented Replay)は,メモリ効率のよいリプレイバッファを持つモデルベースRLアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-30T00:48:26Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。