論文の概要: The Cell Must Go On: Agar.io for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18347v1
- Date: Fri, 23 May 2025 20:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.357197
- Title: The Cell Must Go On: Agar.io for Continual Reinforcement Learning
- Title(参考訳): 継続的な強化学習のためのAgar.io
- Authors: Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado,
- Abstract要約: 継続的な強化学習(RL)は、評価のために固定されたポリシーに収束するのではなく、継続的に学習することが期待されるエージェントに関するものである。
AgarCLは連続RLのための研究プラットフォームであり、より洗練された行動の進行を可能にする。
- 参考スコア(独自算出の注目度): 9.034912115190034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual reinforcement learning (RL) concerns agents that are expected to learn continually, rather than converge to a policy that is then fixed for evaluation. Such an approach is well suited to environments the agent perceives as changing, which renders any static policy ineffective over time. The few simulators explicitly designed for empirical research in continual RL are often limited in scope or complexity, and it is now common for researchers to modify episodic RL environments by artificially incorporating abrupt task changes during interaction. In this paper, we introduce AgarCL, a research platform for continual RL that allows for a progression of increasingly sophisticated behaviour. AgarCL is based on the game Agar.io, a non-episodic, high-dimensional problem featuring stochastic, ever-evolving dynamics, continuous actions, and partial observability. Additionally, we provide benchmark results reporting the performance of DQN, PPO, and SAC in both the primary, challenging continual RL problem, and across a suite of smaller tasks within AgarCL, each of which isolates aspects of the full environment and allow us to characterize the challenges posed by different aspects of the game.
- Abstract(参考訳): 継続的な強化学習(RL)は、評価のために固定されたポリシーに収束するのではなく、継続的に学習することが期待されるエージェントに関するものである。
このようなアプローチは、エージェントが変化と認識する環境に適している。
連続RLにおける経験的研究のために明示的に設計された数少ないシミュレータは、スコープや複雑さに制限されることが多く、現在では、相互作用中に急激なタスク変化を人工的に組み込むことで、エピソードRL環境を修正することが研究者にとって一般的である。
本稿では,より洗練された行動の進行を可能にする連続RLのための研究プラットフォームであるAgarCLを紹介する。
AgarCLは、確率的、絶え間なく進化するダイナミクス、継続的なアクション、部分的な可観測性を備えた非エポゾディックで高次元の問題であるAgar.ioのゲームに基づいている。
さらに,DQN,PPO,SACの性能を主要な連続RL問題およびAgarCL内の小さなタスク群で評価し,各タスクが全環境の側面を分離し,ゲームのさまざまな側面から生じる課題を特徴づけることのできるベンチマーク結果を提供する。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - K-percent Evaluation for Lifelong RL [17.952216813295117]
持続的あるいは生涯にわたる強化学習では、環境へのアクセスは制限されるべきである。
本稿では,実験データのk%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントの評価手法を提案する。
ネットワークの可塑性を維持するために設計されたいくつかのアルゴリズムによる緩和は驚くほどよく機能するのに対し、エージェントはkパーセントのチューニングに制限された場合、一般的に性能が良くない。
論文 参考訳(メタデータ) (2024-04-02T17:13:22Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。