論文の概要: PTCG-Bench: Can LLM Agents Master Pokémon Trading Card Game?
- arxiv url: http://arxiv.org/abs/2605.29653v1
- Date: Thu, 28 May 2026 09:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.569287
- Title: PTCG-Bench: Can LLM Agents Master Pokémon Trading Card Game?
- Title(参考訳): PTCG-Bench: LLM Agents Master Pokémon Trading Card Game?
- Authors: Dongdong Hua, Yifei Sun, Renhong Huang, Feng Gao, Chunping Wang, Yang Yang,
- Abstract要約: PTCG-Bench は Pok'emon Trading Card Game (PTCG) 上に構築されたベンチマークである。
実験の結果, LLMエージェントは非自明なゲームプレイ性能を達成できるが, 持続的かつ安定した自己進化は依然として困難であることがわかった。
我々はPTCG-Benchが現実的な対話環境におけるハーネス認識および自己進化エージェントの今後の研究を促進することを願っている。
- 参考スコア(独自算出の注目度): 14.698359286590408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok'{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.
- Abstract(参考訳): 戦略的に複雑なボードゲームを考えると、人間プレイヤーは数ラウンドをプレイした後すぐに戦略を練ることを学ぶことができる。
自律エージェントは、現実的なインタラクティブな環境でも同様の機能を必要とするが、既存のエージェントベンチマークでは、このような戦略的かつ進化する意思決定シナリオを完全に把握できないことが多い。
PTCG-Benchは,Pok'{e}mon Trading Card Game(PTCG)上に構築されたベンチマークで,LCMエージェントを2つの相補的なレベルで評価する。
さらに、モデル能力と混同することなく、より優れた解釈エージェント性能を実現するためのモジュラーハーネスアブレーションも含んでいる。
実験の結果, LLMエージェントは非自明なゲームプレイ性能を達成できるが, 持続的かつ安定した自己進化は困難であり, 性能は設計に敏感であることがわかった。
我々はPTCG-Benchが現実的な対話環境におけるハーネス認識および自己進化エージェントの今後の研究を促進することを願っている。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - Opponent Shaping in LLM Agents [9.180524457769751]
本稿では,Large Language Models (LLM) を用いた対戦型シェーピング (OS) の最初の検討について述べる。
ShapeLLM を用いて,LLM エージェントが多種多様なゲーム理論環境における協調プレイヤの学習力学に影響を及ぼすかどうかを検討する。
以上の結果から, LLM エージェントは相互作用によって形状と形状を両立できることが明らかとなり, 多エージェント LLM 研究の鍵となる次元として対向型整形が確立された。
論文 参考訳(メタデータ) (2025-10-09T14:13:24Z) - PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Agents of Change: Self-Evolving LLM Agents for Strategic Planning [28.172006841163938]
HexMachinaは、環境発見と戦略改善を分離する継続的学習マルチエージェントシステムである。
制御されたカタナトロン実験では、HexMachinaはスクラッチから学び、最強の人造ベースラインを上回るプレイヤーを進化させる。
論文 参考訳(メタデータ) (2025-06-05T05:45:24Z) - Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文 参考訳(メタデータ) (2025-03-04T13:04:48Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。