論文の概要: Playing repeated games with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.16867v2
- Date: Wed, 07 May 2025 12:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.640226
- Title: Playing repeated games with Large Language Models
- Title(参考訳): 大規模言語モデルによる繰り返しゲーム
- Authors: Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, Eric Schulz,
- Abstract要約: LLMは、人間や他のエージェントと相互作用するアプリケーションでますます使われている。
私たちは異なるLLMに、人間のような戦略と実際の人間プレイヤーで、繰り返し2時間2ドルをプレイさせました。
以上の結果から, LLMは, 反復した囚人のジレンマ家族のような, 利己的なゲームで特に優れていたことが示唆された。
しかし、セクシーズの戦いのような調整を必要とするゲームでは準最適に振る舞う。
- 参考スコア(独自算出の注目度): 23.57695486747895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly used in applications where they interact with humans and other agents. We propose to use behavioural game theory to study LLM's cooperation and coordination behaviour. We let different LLMs play finitely repeated $2\times2$ games with each other, with human-like strategies, and actual human players. Our results show that LLMs perform particularly well at self-interested games like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination, like the Battle of the Sexes. We verify that these behavioural signatures are stable across robustness checks. We additionally show how GPT-4's behaviour can be modulated by providing additional information about its opponent and by using a "social chain-of-thought" (SCoT) strategy. This also leads to better scores and more successful coordination when interacting with human players. These results enrich our understanding of LLM's social behaviour and pave the way for a behavioural game theory for machines.
- Abstract(参考訳): LLMは、人間や他のエージェントと相互作用するアプリケーションでますます使われている。
本研究では,LLMの協調行動と協調行動を研究するために行動ゲーム理論を提案する。
私たちは異なるLLMに、人間のような戦略と実際の人間プレイヤーを駆使して、2ドル2セントのゲームを無限に繰り返すようにしました。
以上の結果から, LLMは, 反復した囚人のジレンマ家族のような, 利己的なゲームで特に優れていたことが示唆された。
しかし、セクシーズの戦いのような調整を必要とするゲームでは準最適に振る舞う。
これらの動作シグネチャがロバストネスチェック全体で安定であることを検証する。
さらに,GPT-4の動作を,相手に関する追加情報を提供し,SCoT(social chain-of- Thought)戦略を用いることで,どう調節できるかを示す。
これはまた、人間のプレイヤーと対話する際に、より良いスコアとよりうまく調整する。
これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
関連論文リスト
- Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文 参考訳(メタデータ) (2025-03-04T13:04:48Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Will GPT-4 Run DOOM? [0.0]
GPT-4の推論と計画能力は1993年のファーストパーソンシューティングゲーム『Doom』にまで拡張されている。
GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
論文 参考訳(メタデータ) (2024-03-08T17:30:41Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Can Large Language Models Serve as Rational Players in Game Theory? A
Systematic Analysis [16.285154752969717]
本研究では,ゲーム理論の文脈で大規模言語モデル(LLM)を体系的に解析する。
実験により、現在最先端のLLMでさえ、ゲーム理論において人間とはかなり異なることが示されている。
論文 参考訳(メタデータ) (2023-12-09T07:33:26Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。