論文の概要: Playing games with Large language models: Randomness and strategy
- arxiv url: http://arxiv.org/abs/2503.02582v1
- Date: Tue, 04 Mar 2025 13:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:50.224694
- Title: Playing games with Large language models: Randomness and strategy
- Title(参考訳): 大規模言語モデルによるゲームプレイ:ランダム性と戦略
- Authors: Alicia Vidler, Toby Walsh,
- Abstract要約: 大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
- 参考スコア(独自算出の注目度): 15.379345372327375
- License:
- Abstract: Playing games has a long history of describing intricate interactions in simplified forms. In this paper we explore if large language models (LLMs) can play games, investigating their capabilities for randomisation and strategic adaptation through both simultaneous and sequential game interactions. We focus on GPT-4o-Mini-2024-08-17 and test two games between LLMs: Rock Paper Scissors (RPS) and games of strategy (Prisoners Dilemma PD). LLMs are often described as stochastic parrots, and while they may indeed be parrots, our results suggest that they are not very stochastic in the sense that their outputs - when prompted to be random - are often very biased. Our research reveals that LLMs appear to develop loss aversion strategies in repeated games, with RPS converging to stalemate conditions while PD shows systematic shifts between cooperative and competitive outcomes based on prompt design. We detail programmatic tools for independent agent interactions and the Agentic AI challenges faced in implementation. We show that LLMs can indeed play games, just not very well. These results have implications for the use of LLMs in multi-agent LLM systems and showcase limitations in current approaches to model output for strategic decision-making.
- Abstract(参考訳): プレイングゲームは、単純化された形式で複雑な相互作用を記述する長い歴史を持っている。
本稿では,大規模言語モデル(LLM)がゲームプレイ可能かどうかを考察し,同時かつ逐次的なゲームインタラクションを通じて,ランダム化と戦略的適応の能力について検討する。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLMs: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) の2つのゲームをテストする。
LLMは確率的なオウムとしてしばしば説明され、実際はオウムであるかもしれないが、我々の結果は、その出力がランダムであるときに非常に偏っているという意味では、あまり確率的ではないことを示唆している。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
独立したエージェントインタラクションのためのプログラムツールと,実装で直面するエージェントAIの課題について詳述する。
LLMが実際にプレイできることは、あまりうまくいきません。
これらの結果は,マルチエージェントLLMシステムにおけるLCMの使用に影響を及ぼし,戦略的意思決定のためのモデル出力に対する現在のアプローチの限界を示す。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Strategic Behavior of Large Language Models: Game Structure vs.
Contextual Framing [0.0]
本稿では,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。
4つの標準的な2プレイヤーゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを探索する。
論文 参考訳(メタデータ) (2023-09-12T00:54:15Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。