論文の概要: Replication of Multi-agent Reinforcement Learning for the "Hide and
Seek" Problem
- arxiv url: http://arxiv.org/abs/2310.05430v1
- Date: Mon, 9 Oct 2023 06:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:30:30.622129
- Title: Replication of Multi-agent Reinforcement Learning for the "Hide and
Seek" Problem
- Title(参考訳): ハイドとシーク」問題に対するマルチエージェント強化学習の再現
- Authors: Haider Kamal, Muaz A. Niazi, Hammad Afzal
- Abstract要約: ドキュメントの欠如により、一度生成した戦略の複製が困難になる。
本研究のエージェントは、飛行機構に加えて、オープンアルの隠蔽剤や探索剤と同様にシミュレーションされる。
この追加機能により、Hiderエージェントは、約200万ステップから1.6万ステップとシーカーまで追跡戦略を開発することができる。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning generates policies based on reward functions and
hyperparameters. Slight changes in these can significantly affect results. The
lack of documentation and reproducibility in Reinforcement learning research
makes it difficult to replicate once-deduced strategies. While previous
research has identified strategies using grounded maneuvers, there is limited
work in more complex environments. The agents in this study are simulated
similarly to Open Al's hider and seek agents, in addition to a flying
mechanism, enhancing their mobility, and expanding their range of possible
actions and strategies. This added functionality improves the Hider agents to
develop a chasing strategy from approximately 2 million steps to 1.6 million
steps and hiders
- Abstract(参考訳): 強化学習は報酬関数とハイパーパラメータに基づくポリシーを生成する。
これらの変化は結果に大きな影響を与えます。
強化学習研究におけるドキュメントの欠如と再現性により、一度生成された戦略を再現することは困難である。
これまでの研究では、接地操作を使った戦略が特定されているが、より複雑な環境での作業は限られている。
本研究のエージェントは、飛行機構の他に、飛行機構の強化、移動性の向上、可能な行動と戦略の範囲の拡大など、オープンアルの隠れ家や探究エージェントと同様にシミュレートされる。
この追加機能により、約200万ステップから160万ステップまでの追跡戦略を開発するためのhiderエージェントが改善される。
関連論文リスト
- Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Investigating Navigation Strategies in the Morris Water Maze through
Deep Reinforcement Learning [4.408196554639971]
本研究では,モリス水迷路を2次元で模擬し,深層強化学習エージェントの訓練を行う。
我々は、ナビゲーション戦略の自動分類を行い、人工エージェントが使用する戦略の分布を分析し、実験データと比較し、人間やげっ歯類と同様の学習力学を示す。
論文 参考訳(メタデータ) (2023-06-01T18:16:16Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Effects of Different Optimization Formulations in Evolutionary
Reinforcement Learning on Diverse Behavior Generation [2.359091475921131]
本稿では,多目的最適化を利用した既存の進化的強化学習フレームワークについて考察する。
アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、目の前の問題を解くのが苦手な出力エージェントさえも失敗すると強調されている。
論文 参考訳(メタデータ) (2021-10-15T14:41:42Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Deep Reinforcement Learning with Function Properties in Mean Reversion
Strategies [0.0]
我々は,OpenAIによって開発された既製のライブラリが,逆転戦略に容易に適応できるかどうかを考察する。
エージェントが検索する必要がある関数空間を狭めることで、より良いパフォーマンスが得られるかどうかを設計し、テストします。
論文 参考訳(メタデータ) (2021-01-09T19:41:29Z) - SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement
Learning [10.82169171060299]
産業シナリオでは、システムの振る舞いは予測可能で、定義された範囲内にある必要がある。
本稿では,機能的および非機能的要求を形式的報酬に明示的に移行することを提案する。
工業用ロットサイズワン生産施設をモデル化するマルチエージェント環境であるスマートファクトリーで実験を行う。
論文 参考訳(メタデータ) (2020-12-14T21:33:16Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。