論文の概要: Pok\'eLLMon: A Human-Parity Agent for Pok\'emon Battles with Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.01118v1
- Date: Fri, 2 Feb 2024 03:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:04:43.295406
- Title: Pok\'eLLMon: A Human-Parity Agent for Pok\'emon Battles with Large
Language Models
- Title(参考訳): pok\'ellmon:pok\'emonのためのヒューマンパリティエージェントと大規模言語モデル
- Authors: Sihao Hu, Tiansheng Huang, Ling Liu
- Abstract要約: textscPok'eLLMonは、戦術的な戦闘ゲームにおいて、人間のパリティパフォーマンスを達成する最初のLDM型エージェントである。
オンライン対人戦は、textscPok'eLLMonの人間的な戦闘戦略とジャスト・イン・タイムの意思決定を示す。
- 参考スコア(独自算出の注目度): 8.601857354379096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textsc{Pok\'eLLMon}, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of \textsc{Pok\'eLLMon} incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the \textit{panic switching}
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
\textsc{Pok\'eLLMon}'s human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: \url{https://github.com/git-disl/PokeLLMon}.
- Abstract(参考訳): Pok\'eLLMon} は,Pok\'emon の戦闘で実証されたように,戦術戦闘ゲームにおいて,人間のパリティパフォーマンスを達成する最初の LLM 型エージェントである。
textsc{Pok\'eLLMon} の設計には3つの重要な戦略がある。
(i)戦闘から派生したテキストベースのフィードバックを瞬時に消費し、政策を反復的に洗練する文脈内強化学習
2 幻覚を予防するために外部知識を回収し、エージェントが適時かつ適切に行動できるようにする知識増強世代
(iii)エージェントが強力な敵と向き合い、戦闘を防ぎたいとき、 \textit{panic switching}現象を緩和するための一貫したアクション生成。
オンライン対人戦では,「textsc{Pok\'eLLMon}'s human-like battle Strategy and just-in-time decision making」が示され,ラダー戦では49 %,招待戦では56 %の勝利率を達成した。
実装とプレイ可能なバトルログは、 \url{https://github.com/git-disl/pokellmon} で利用可能です。
関連論文リスト
- Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Supervised Learning Achieves Human-Level Performance in MOBA Games: A
Case Study of Honor of Kings [37.534249771219926]
オンラインバトルアリーナ(MOBA)ゲームにおける人間レベルのパフォーマンスを実現する,教師付き学習ベース人工知能(AI)プログラムであるJueWu-SLを提案する。
我々は,MOBAゲームプレイのマクロストラテジーとマイクロマネジメントを,教師付きとエンドツーエンドの方法でニューラルネットワークに統合する。
現在最も人気のあるMOBAであるHonor of KingsでテストされているAIは、標準的な5v5ゲームにおいて、ハイキングプレイヤーのレベルで競争力を発揮しています。
論文 参考訳(メタデータ) (2020-11-25T08:45:55Z) - TotalBotWar: A New Pseudo Real-time Multi-action Game Challenge and
Competition for AI [62.997667081978825]
TotalBotWarは、ゲームAIのための新しい擬似リアルタイムマルチアクションチャレンジだ。
ゲームはTotalWarのゲームシリーズに基づいており、プレイヤーは敵のゲームに勝つために軍隊を管理する。
論文 参考訳(メタデータ) (2020-09-18T09:13:56Z) - Battlesnake Challenge: A Multi-agent Reinforcement Learning Playground
with Human-in-the-loop [2.9691097886836944]
バトルネークチャレンジ(Battlesnake Challenge)は、ヒューマン・イン・ザ・ループ(HILL)を用いたマルチエージェント強化学習の枠組みである。
オフラインマルチエージェントモデルトレーニングのためのシミュレーションゲーム環境を開発し,学習を改善するためのベースラインのセットを同定する。
以上の結果から,提案したHILLエージェントはHILLを使わずに常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-07-20T21:59:53Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。
私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。
私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文 参考訳(メタデータ) (2020-02-15T01:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。