Fugu-MT 論文翻訳(概要): Augmenting Replay in World Models for Continual Reinforcement Learning

論文の概要: Augmenting Replay in World Models for Continual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2401.16650v1
Date: Tue, 30 Jan 2024 00:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 16:44:22.671330
Title: Augmenting Replay in World Models for Continual Reinforcement Learning
Title（参考訳）: 連続強化学習のための世界モデルにおけるリプレイ強化
Authors: Luke Yang, Levin Kuhlmann, Gideon Kowadlo
Abstract要約: 連続RLでは、強化学習剤(RL)の環境が変化する。 First-in-first-outバッファは、そのような設定での学習を強化するために一般的に使用されるが、かなりのメモリを必要とする。メモリ制約を緩和するバッファへの拡張の適用について検討し、これを世界モデルに基づく強化学習アルゴリズムで利用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In continual RL, the environment of a reinforcement learning (RL) agent undergoes change. A successful system should appropriately balance the conflicting requirements of retaining agent performance on already learned tasks, stability, whilst learning new tasks, plasticity. The first-in-first-out buffer is commonly used to enhance learning in such settings but requires significant memory. We explore the application of an augmentation to this buffer which alleviates the memory constraints, and use it with a world model model-based reinforcement learning algorithm, to evaluate its effectiveness in facilitating continual learning. We evaluate the effectiveness of our method in Procgen and Atari RL benchmarks and show that the distribution matching augmentation to the replay-buffer used in the context of latent world models can successfully prevent catastrophic forgetting with significantly reduced computational overhead. Yet, we also find such a solution to not be entirely infallible, and other failure modes such as the opposite -- lacking plasticity and being unable to learn a new task -- to be a potential limitation in continual learning systems.
Abstract（参考訳）: 連続RLでは、強化学習剤(RL)の環境が変化する。成功するシステムは、既に学習されたタスク、安定性、そして新しいタスク、可塑性を学習しながらエージェントのパフォーマンスを維持するという相反する要件を適切にバランスさせるべきである。 first-in-first-outバッファは、このような設定での学習を強化するために一般的に使用されるが、大きなメモリを必要とする。メモリ制約を緩和するバッファへの拡張の適用について検討し、これを世界モデルモデルに基づく強化学習アルゴリズムで利用し、連続学習の促進効果を評価する。本稿では, Procgen と Atari RL ベンチマークにおける本手法の有効性を評価し,潜在世界モデルにおけるリプレイバッファへの分布マッチングにより,計算オーバーヘッドを大幅に削減した破滅的忘れ込みを効果的に防止できることを示す。しかし、このようなソリューションが完全に不可能ではないことや、プラスチック性が欠如し、新しいタスクを学習できないといった他の障害モードが、継続的学習システムの潜在的な限界であることも分かっています。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。 GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-20T01:04:21Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文参考訳（メタデータ） (2022-09-29T16:54:05Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Model-Free Generative Replay for Lifelong Reinforcement Learning: Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文参考訳（メタデータ） (2022-08-09T22:00:28Z)
Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文参考訳（メタデータ） (2021-10-11T07:09:14Z)
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-03T21:00:53Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。