論文の概要: System Design for an Integrated Lifelong Reinforcement Learning Agent
for Real-Time Strategy Games
- arxiv url: http://arxiv.org/abs/2212.04603v1
- Date: Thu, 8 Dec 2022 23:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:17:55.471470
- Title: System Design for an Integrated Lifelong Reinforcement Learning Agent
for Real-Time Strategy Games
- Title(参考訳): リアルタイム戦略ゲームのための生涯強化学習エージェントのシステム設計
- Authors: Indranil Sur, Zachary Daniels, Abrar Rahman, Kamil Faber, Gianmarco J.
Gallardo, Tyler L. Hayes, Cameron E. Taylor, Mustafa Burak Gurbuz, James
Smith, Sahana Joshi, Nathalie Japkowicz, Michael Baron, Zsolt Kira,
Christopher Kanan, Roberto Corizzo, Ajay Divakaran, Michael Piacentino, Jesse
Hostetler, Aswin Raghavan
- Abstract要約: 継続/寿命学習(LL)は、新しいタスクを学習するモデルの能力を最大化しながら、古いタスクの忘れを最小限にする。
本稿では、L2RLシステムを標準化し、異なる連続学習コンポーネントを同化するLifelong Reinforcement Learning Components Framework (L2RLCF)を紹介する。
本稿では,複数の独立開発LLコンポーネントが単一システムに統合可能であることを示すケーススタディについて述べる。
- 参考スコア(独自算出の注目度): 34.3277278308442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Artificial and Robotic Systems are increasingly deployed and relied upon
for real-world applications, it is important that they exhibit the ability to
continually learn and adapt in dynamically-changing environments, becoming
Lifelong Learning Machines. Continual/lifelong learning (LL) involves
minimizing catastrophic forgetting of old tasks while maximizing a model's
capability to learn new tasks. This paper addresses the challenging lifelong
reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in
L2RL and making L2RL useful for practical applications requires more than
developing individual L2RL algorithms; it requires making progress at the
systems-level, especially research into the non-trivial problem of how to
integrate multiple L2RL algorithms into a common framework. In this paper, we
introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF),
which standardizes L2RL systems and assimilates different continual learning
components (each addressing different aspects of the lifelong learning problem)
into a unified system. As an instantiation of L2RLCF, we develop a standard API
allowing easy integration of novel lifelong learning components. We describe a
case study that demonstrates how multiple independently-developed LL components
can be integrated into a single realized system. We also introduce an
evaluation environment in order to measure the effect of combining various
system components. Our evaluation environment employs different LL scenarios
(sequences of tasks) consisting of Starcraft-2 minigames and allows for the
fair, comprehensive, and quantitative comparison of different combinations of
components within a challenging common evaluation environment.
- Abstract(参考訳): 人工知能とロボットシステムは、現実世界のアプリケーションにますますデプロイされ、頼りにされているため、動的に変化する環境で継続的に学習し、適応する能力を示すことが重要である。
継続/生涯学習(LL)は、新しいタスクを学習するモデルの能力を最大化しながら、古いタスクの破滅的な忘れを最小化する。
本稿では,生涯強化学習(L2RL)の課題について述べる。
L2RLの最先端を推し進め、実用用途にL2RLを役立てるためには、個々のL2RLアルゴリズムを開発する以上のことが必要であり、特に複数のL2RLアルゴリズムを共通のフレームワークに統合する方法に関する非自明な問題の研究を必要とする。
本稿では、L2RLシステムを標準化し、異なる連続学習コンポーネント(いずれも生涯学習問題の異なる側面に対処する)を統一システムに同化するLifelong Reinforcement Learning Components Framework(L2RLCF)を紹介する。
L2RLCFのインスタンス化として,新しい生涯学習コンポーネントを容易に統合できる標準APIを開発した。
本稿では,複数の独立開発LLコンポーネントが単一システムに統合可能であることを示すケーススタディについて述べる。
また,様々なシステムコンポーネントを組み合わせる効果を測定するための評価環境も導入する。
評価環境は,Starcraft-2ミニゲームからなるLLシナリオ(タスク列)を多用し,課題のある共通評価環境におけるコンポーネントの組み合わせの公平で包括的で定量的な比較を可能にする。
関連論文リスト
- Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Lifelong Machine Learning of Functionally Compositional Structures [7.99536002595393]
この論文は、機能的な構成構造の生涯学習のための汎用的な枠組みを提示する。
このフレームワークは、学習を2つの段階に分ける: 既存のコンポーネントを組み合わせて新しい問題を同化する方法を学び、新しい問題に対応するために既存のコンポーネントを適応する方法を学ぶ。
教師付き学習評価の結果,1)構成モデルでは,多様なタスクの生涯学習が向上し,2)多段階のプロセスでは構成知識の生涯学習が可能となり,3)フレームワークが学習するコンポーネントは自己完結的かつ再利用可能な機能を表すことがわかった。
論文 参考訳(メタデータ) (2022-07-25T15:24:25Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Reset-Free Lifelong Learning with Skill-Space Planning [105.00539596788127]
非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。
LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-07T09:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。