論文の概要: Can Large Language Models Master Complex Card Games?
- arxiv url: http://arxiv.org/abs/2509.01328v1
- Date: Mon, 01 Sep 2025 10:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.640084
- Title: Can Large Language Models Master Complex Card Games?
- Title(参考訳): 大規模言語モデルは複雑なカードゲームにマスターできるか?
- Authors: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示した。
高品質なデータを教師付き微調整することで,LLMが強力なゲームAIの性能にアプローチ可能であることを示す。
LLMは複雑なゲームをマスターする際の一般的な能力の低下を経験するが、この低下をある程度の一般的な命令データを統合することで軽減することができる。
- 参考スコア(独自算出の注目度): 18.39826127562161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can master multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs.
- Abstract(参考訳): 複雑なゲームは、人工知能アルゴリズムの進歩をテストする上で、長い間重要なベンチマークであった。
AlphaGo、AlphaZero、MuZeroはGoとChessのトップの人間プレイヤーを破り、人工知能に対する社会的な注目を集めている。
同時に、大きな言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示しており、LLMが複雑なゲームで同様の成功を達成できるかどうかという疑問が提起されている。
本稿では,複雑なカードゲームを習得する上での LLM の可能性について検討する。
本研究では,8種類のカードゲームにおけるLLMの学習能力を体系的に評価し,高品質なゲームプレイデータに対する微調整の影響を評価し,それらのゲームを習得しながら汎用能力を維持できるモデルの有効性を検討する。
以上の結果から,(1)LLMは高品質データの教師付き微調整により,強いゲームAIの性能にアプローチ可能であること,(2)LLMは複数の複雑なカードゲームを同時にマスタ可能であること,(3)LLMは複雑なゲームをマスタする際の一般的な能力の低下を経験するが,この低下をある程度の汎用的な命令データを統合することで軽減することができること,などが示唆された。
評価結果は,LLMの学習能力と汎用性を示す。
関連論文リスト
- Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.128280701799074]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。
データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。
我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文 参考訳(メタデータ) (2025-03-18T07:30:29Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SmartPlay: A Benchmark for LLMs as Intelligent Agents [45.76707302899935]
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダムさの理解が含まれる。
論文 参考訳(メタデータ) (2023-10-02T18:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。