論文の概要: Replication of Multi-agent Reinforcement Learning for the "Hide and
Seek" Problem
- arxiv url: http://arxiv.org/abs/2310.05430v1
- Date: Mon, 9 Oct 2023 06:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:30:30.622129
- Title: Replication of Multi-agent Reinforcement Learning for the "Hide and
Seek" Problem
- Title(参考訳): ハイドとシーク」問題に対するマルチエージェント強化学習の再現
- Authors: Haider Kamal, Muaz A. Niazi, Hammad Afzal
- Abstract要約: ドキュメントの欠如により、一度生成した戦略の複製が困難になる。
本研究のエージェントは、飛行機構に加えて、オープンアルの隠蔽剤や探索剤と同様にシミュレーションされる。
この追加機能により、Hiderエージェントは、約200万ステップから1.6万ステップとシーカーまで追跡戦略を開発することができる。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning generates policies based on reward functions and
hyperparameters. Slight changes in these can significantly affect results. The
lack of documentation and reproducibility in Reinforcement learning research
makes it difficult to replicate once-deduced strategies. While previous
research has identified strategies using grounded maneuvers, there is limited
work in more complex environments. The agents in this study are simulated
similarly to Open Al's hider and seek agents, in addition to a flying
mechanism, enhancing their mobility, and expanding their range of possible
actions and strategies. This added functionality improves the Hider agents to
develop a chasing strategy from approximately 2 million steps to 1.6 million
steps and hiders
- Abstract(参考訳): 強化学習は報酬関数とハイパーパラメータに基づくポリシーを生成する。
これらの変化は結果に大きな影響を与えます。
強化学習研究におけるドキュメントの欠如と再現性により、一度生成された戦略を再現することは困難である。
これまでの研究では、接地操作を使った戦略が特定されているが、より複雑な環境での作業は限られている。
本研究のエージェントは、飛行機構の他に、飛行機構の強化、移動性の向上、可能な行動と戦略の範囲の拡大など、オープンアルの隠れ家や探究エージェントと同様にシミュレートされる。
この追加機能により、約200万ステップから160万ステップまでの追跡戦略を開発するためのhiderエージェントが改善される。
関連論文リスト
- Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Reinforcement Learning with a Focus on Adjusting Policies to Reach Targets [0.0]
本稿では,期待したリターンを最大化することよりも,期待レベルを達成することを優先する,新しい深層強化学習手法を提案する。
その結果,本手法は探索範囲を柔軟に調整し,非定常環境に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-23T07:16:47Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning [1.9253333342733674]
ケモタキシーの訓練において,強化学習が生物学的システムに対する洞察を与えることができるかどうかを検討する。
各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。
RLの薬剤は、物理的に可能であればすぐに遊泳でき、場合によっては、アクティブスイミングが環境を圧倒する前にも、遊泳が可能であることが判明した。
論文 参考訳(メタデータ) (2024-04-02T14:42:52Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Investigating Navigation Strategies in the Morris Water Maze through
Deep Reinforcement Learning [4.408196554639971]
本研究では,モリス水迷路を2次元で模擬し,深層強化学習エージェントの訓練を行う。
我々は、ナビゲーション戦略の自動分類を行い、人工エージェントが使用する戦略の分布を分析し、実験データと比較し、人間やげっ歯類と同様の学習力学を示す。
論文 参考訳(メタデータ) (2023-06-01T18:16:16Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Deep Reinforcement Learning with Function Properties in Mean Reversion
Strategies [0.0]
我々は,OpenAIによって開発された既製のライブラリが,逆転戦略に容易に適応できるかどうかを考察する。
エージェントが検索する必要がある関数空間を狭めることで、より良いパフォーマンスが得られるかどうかを設計し、テストします。
論文 参考訳(メタデータ) (2021-01-09T19:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。