Fugu-MT 論文翻訳(概要): Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem

論文の概要: Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem

arxiv url: http://arxiv.org/abs/2310.05430v1
Date: Mon, 9 Oct 2023 06:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 07:30:30.622129
Title: Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem
Title（参考訳）: ハイドとシーク」問題に対するマルチエージェント強化学習の再現
Authors: Haider Kamal, Muaz A. Niazi, Hammad Afzal
Abstract要約: ドキュメントの欠如により、一度生成した戦略の複製が困難になる。本研究のエージェントは、飛行機構に加えて、オープンアルの隠蔽剤や探索剤と同様にシミュレーションされる。この追加機能により、Hiderエージェントは、約200万ステップから1.6万ステップとシーカーまで追跡戦略を開発することができる。
参考スコア（独自算出の注目度）: 0.552480439325792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning generates policies based on reward functions and hyperparameters. Slight changes in these can significantly affect results. The lack of documentation and reproducibility in Reinforcement learning research makes it difficult to replicate once-deduced strategies. While previous research has identified strategies using grounded maneuvers, there is limited work in more complex environments. The agents in this study are simulated similarly to Open Al's hider and seek agents, in addition to a flying mechanism, enhancing their mobility, and expanding their range of possible actions and strategies. This added functionality improves the Hider agents to develop a chasing strategy from approximately 2 million steps to 1.6 million steps and hiders
Abstract（参考訳）: 強化学習は報酬関数とハイパーパラメータに基づくポリシーを生成する。これらの変化は結果に大きな影響を与えます。強化学習研究におけるドキュメントの欠如と再現性により、一度生成された戦略を再現することは困難である。これまでの研究では、接地操作を使った戦略が特定されているが、より複雑な環境での作業は限られている。本研究のエージェントは、飛行機構の他に、飛行機構の強化、移動性の向上、可能な行動と戦略の範囲の拡大など、オープンアルの隠れ家や探究エージェントと同様にシミュレートされる。この追加機能により、約200万ステップから160万ステップまでの追跡戦略を開発するためのhiderエージェントが改善される。

関連論文リスト

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文参考訳（メタデータ） (2025-01-03T14:30:14Z)
Reinforcement Learning with a Focus on Adjusting Policies to Reach Targets [0.0]
本稿では,期待したリターンを最大化することよりも,期待レベルを達成することを優先する,新しい深層強化学習手法を提案する。その結果,本手法は探索範囲を柔軟に調整し,非定常環境に適応できる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-23T07:16:47Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Boosting Hierarchical Reinforcement Learning with Meta-Learning for Complex Task Adaptation [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで複雑なタスクを解決するのに適している。エージェントが階層的なポリシーをより効果的に学習し、適応できるように、メタラーニングをHRLに統合することを提案する。
論文参考訳（メタデータ） (2024-10-10T13:47:37Z)
Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning [1.9253333342733674]
ケモタキシーの訓練において,強化学習が生物学的システムに対する洞察を与えることができるかどうかを検討する。各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。 RLの薬剤は、物理的に可能であればすぐに遊泳でき、場合によっては、アクティブスイミングが環境を圧倒する前にも、遊泳が可能であることが判明した。
論文参考訳（メタデータ） (2024-04-02T14:42:52Z)
Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文参考訳（メタデータ） (2024-02-24T13:13:04Z)
Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文参考訳（メタデータ） (2023-12-26T09:03:23Z)
Investigating Navigation Strategies in the Morris Water Maze through Deep Reinforcement Learning [4.408196554639971]
本研究では,モリス水迷路を2次元で模擬し,深層強化学習エージェントの訓練を行う。我々は、ナビゲーション戦略の自動分類を行い、人工エージェントが使用する戦略の分布を分析し、実験データと比較し、人間やげっ歯類と同様の学習力学を示す。
論文参考訳（メタデータ） (2023-06-01T18:16:16Z)
Coach-assisted Multi-Agent Reinforcement Learning Framework for Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。本稿では,教師支援型多エージェント強化学習フレームワークを提案する。私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文参考訳（メタデータ） (2022-03-16T08:22:45Z)
What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文参考訳（メタデータ） (2021-04-29T20:34:39Z)
Deep Reinforcement Learning with Function Properties in Mean Reversion Strategies [0.0]
我々は,OpenAIによって開発された既製のライブラリが,逆転戦略に容易に適応できるかどうかを考察する。エージェントが検索する必要がある関数空間を狭めることで、より良いパフォーマンスが得られるかどうかを設計し、テストします。
論文参考訳（メタデータ） (2021-01-09T19:41:29Z)
SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement Learning [10.82169171060299]
産業シナリオでは、システムの振る舞いは予測可能で、定義された範囲内にある必要がある。本稿では,機能的および非機能的要求を形式的報酬に明示的に移行することを提案する。工業用ロットサイズワン生産施設をモデル化するマルチエージェント環境であるスマートファクトリーで実験を行う。
論文参考訳（メタデータ） (2020-12-14T21:33:16Z)
RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文参考訳（メタデータ） (2020-10-04T09:20:59Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。