論文の概要: Knowledge Retention for Continual Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.04256v1
- Date: Thu, 06 Mar 2025 09:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:08.484483
- Title: Knowledge Retention for Continual Model-Based Reinforcement Learning
- Title(参考訳): 連続モデルに基づく強化学習のための知識保持
- Authors: Yixiang Sun, Haotian Fu, Michael Littman, George Konidaris,
- Abstract要約: DRAGOは連続モデルに基づく強化学習のための新しいアプローチである。
DRAGOは、Synthetic Experience RehearsalとRe Get Memories Through Explorationの2つの重要なコンポーネントで構成されている。
実証的な評価は、DRAGOがタスク間の知識を保存でき、様々な連続学習シナリオにおいて優れたパフォーマンスを達成できることを示している。
- 参考スコア(独自算出の注目度): 11.5581880507344
- License:
- Abstract: We propose DRAGO, a novel approach for continual model-based reinforcement learning aimed at improving the incremental development of world models across a sequence of tasks that differ in their reward functions but not the state space or dynamics. DRAGO comprises two key components: Synthetic Experience Rehearsal, which leverages generative models to create synthetic experiences from past tasks, allowing the agent to reinforce previously learned dynamics without storing data, and Regaining Memories Through Exploration, which introduces an intrinsic reward mechanism to guide the agent toward revisiting relevant states from prior tasks. Together, these components enable the agent to maintain a comprehensive and continually developing world model, facilitating more effective learning and adaptation across diverse environments. Empirical evaluations demonstrate that DRAGO is able to preserve knowledge across tasks, achieving superior performance in various continual learning scenarios.
- Abstract(参考訳): DRAGOは、報酬関数が異なるが状態空間やダイナミクスではない一連のタスクにおいて、世界モデルの漸進的開発を改善することを目的とした、連続モデルに基づく強化学習のための新しいアプローチである。
DRAGOは2つの主要なコンポーネントから構成される: 合成経験リハーサル(Synthetic Experience Rehearsal)は、生成モデルを利用して過去のタスクから合成経験を創造し、エージェントがデータを保存することなく学習したダイナミクスを強化できるようにする。
これらのコンポーネントを組み合わせることで、エージェントは包括的で継続的な世界モデルを維持することができ、多様な環境にまたがるより効果的な学習と適応が容易になる。
実証的な評価は、DRAGOがタスク間の知識を保存でき、様々な連続学習シナリオにおいて優れたパフォーマンスを達成できることを示している。
関連論文リスト
- Spurious Forgetting in Continual Learning of Language Models [20.0936011355535]
大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。
大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。
本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
論文 参考訳(メタデータ) (2025-01-23T08:09:54Z) - Incrementally Learning Multiple Diverse Data Domains via Multi-Source Dynamic Expansion Model [16.035374682124846]
継続学習は、事前知識を維持しつつ、新たな情報を漸進的に同化できるモデルの開発を目指している。
本稿では,複数の異なるドメインから抽出されたデータサンプルを特徴とする,より複雑で現実的な学習環境に焦点を移す。
論文 参考訳(メタデータ) (2025-01-15T15:49:46Z) - Research on the Online Update Method for Retrieval-Augmented Generation (RAG) Model with Incremental Learning [13.076087281398813]
提案手法は,知識保持と推論精度の観点から,既存の主流比較モデルよりも優れている。
実験の結果,提案手法は知識保持と推論精度の観点から,既存の主流比較モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-13T05:16:14Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Improving Sequential Recommendation Consistency with Self-Supervised
Imitation [31.156591972077162]
本稿では,自己監督表現による逐次レコメンデーション整合性を改善するモデルであるSSIを提案する。
一貫性に富んだ知識の3つの独立した側面を活かすため、我々は統合された模倣学習フレームワークを構築した。
4つの実世界のデータセットの実験により、SSIは最先端のシーケンシャルレコメンデーション手法よりも効果的に優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T14:15:29Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。