Fugu-MT 論文翻訳(概要): A Competition Winning Deep Reinforcement Learning Agent in microRTS

論文の概要: A Competition Winning Deep Reinforcement Learning Agent in microRTS

arxiv url: http://arxiv.org/abs/2402.08112v1
Date: Mon, 12 Feb 2024 23:08:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:22:30.633844
Title: A Competition Winning Deep Reinforcement Learning Agent in microRTS
Title（参考訳）: micrortsにおける競争勝利型深層強化学習エージェント
Authors: Scott Goodfriend
Abstract要約: RAISocketAIは、IEEE microRTSコンペティションで優勝した最初のDeep Reinforcement Learning (DRL)エージェントである。パフォーマンス制約のないベンチマークでは、RAISocketAIは2つの以前の競争勝者を定期的に破った。根本方針を反復的に微調整し、特定の地図に学習を移すことは、RAISocketAIの勝利に不可欠であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scripted agents have predominantly won the five previous iterations of the IEEE microRTS ($\mu$RTS) competitions hosted at CIG and CoG. Despite Deep Reinforcement Learning (DRL) algorithms making significant strides in real-time strategy (RTS) games, their adoption in this primarily academic competition has been limited due to the considerable training resources required and the complexity inherent in creating and debugging such agents. RAISocketAI is the first DRL agent to win the IEEE microRTS competition. In a benchmark without performance constraints, RAISocketAI regularly defeated the two prior competition winners. This first competition-winning DRL submission can be a benchmark for future microRTS competitions and a starting point for future DRL research. Iteratively fine-tuning the base policy and transfer learning to specific maps were critical to RAISocketAI's winning performance. These strategies can be used to economically train future DRL agents. Further work in Imitation Learning using Behavior Cloning and fine-tuning these models with DRL has proven promising as an efficient way to bootstrap models with demonstrated, competitive behaviors.
Abstract（参考訳）: スクリプトエージェントは、CIGとCoGが主催するIEEE microRTS(\mu$RTS)コンペティションの5回を主に受賞している。深層強化学習 (drl) アルゴリズムはリアルタイム戦略 (rts) ゲームにおいて大きな進歩を遂げているが、この主な学術的競争における採用は、必要なかなりのトレーニングリソースとそのようなエージェントの作成とデバッグに固有の複雑さのために制限されている。 RAISocketAIはIEEE microRTSコンペティションで優勝した最初のDRLエージェントである。パフォーマンス制約のないベンチマークでは、RAISocketAIは2つの以前の競争勝者を定期的に破った。このコンテストで優勝したDRLは、将来のmicroRTSコンペティションのベンチマークであり、将来のDRL研究の出発点となる。ベースポリシーの反復的微調整と特定の地図への転載学習は、ライイソケタイの勝利に不可欠であった。これらの戦略は将来のDRLエージェントを経済的に訓練するために使用できる。行動クローンを用いた模倣学習のさらなる取り組みとDRLによるこれらのモデルの微調整は、実証された競争行動でモデルをブートストラップする効率的な方法として有望であることが証明されている。

関連論文リスト

Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。 5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文参考訳（メタデータ） (2025-02-13T03:38:41Z)
Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文参考訳（メタデータ） (2024-11-17T12:38:13Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
Centralized control for multi-agent RL in a complex Real-Time-Strategy game [0.0]
マルチエージェント強化学習(MARL)は、共有環境で共存する複数の学習エージェントの行動を研究する。 MARLはシングルエージェントRLよりも難しい。このプロジェクトは、Lux AI v2 KaggleコンペティションにRLを適用したエンドツーエンドエクスペリエンスを提供する。
論文参考訳（メタデータ） (2023-04-25T17:19:05Z)
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。 RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T14:47:35Z)
Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-03T15:11:10Z)
Retrospective on the 2021 BASALT Competition on Learning from Human Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。 LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-04-14T17:24:54Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games Research with Deep Reinforcement Learning [0.0]
Gym-$mu$RTS をフルゲーム RTS 研究のための高速実行 RL 環境として紹介する。 DRLをスケールしてフルゲームの$mu$RTSをプレイするためのテクニックのコレクションを提示する。
論文参考訳（メタデータ） (2021-05-21T20:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。