論文の概要: Playing repeated games with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.16867v1
- Date: Fri, 26 May 2023 12:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:15:20.406521
- Title: Playing repeated games with Large Language Models
- Title(参考訳): 大きな言語モデルで繰り返しゲームをプレイする
- Authors: Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias
Bethge, Eric Schulz
- Abstract要約: 行動ゲーム理論を用いて,大規模言語モデルの協調行動と協調行動を研究する。
以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。
これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
- 参考スコア(独自算出の注目度): 20.63964279913456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are transforming society and permeating into
diverse applications. As a result, LLMs will frequently interact with us and
other agents. It is, therefore, of great societal value to understand how LLMs
behave in interactive social settings. Here, we propose to use behavioral game
theory to study LLM's cooperation and coordination behavior. To do so, we let
different LLMs (GPT-3, GPT-3.5, and GPT-4) play finitely repeated games with
each other and with other, human-like strategies. Our results show that LLMs
generally perform well in such tasks and also uncover persistent behavioral
signatures. In a large set of two players-two strategies games, we find that
LLMs are particularly good at games where valuing their own self-interest pays
off, like the iterated Prisoner's Dilemma family. However, they behave
sub-optimally in games that require coordination. We, therefore, further focus
on two games from these distinct families. In the canonical iterated Prisoner's
Dilemma, we find that GPT-4 acts particularly unforgivingly, always defecting
after another agent has defected only once. In the Battle of the Sexes, we find
that GPT-4 cannot match the behavior of the simple convention to alternate
between options. We verify that these behavioral signatures are stable across
robustness checks. Finally, we show how GPT-4's behavior can be modified by
providing further information about the other player as well as by asking it to
predict the other player's actions before making a choice. These results enrich
our understanding of LLM's social behavior and pave the way for a behavioral
game theory for machines.
- Abstract(参考訳): 大規模言語モデル(LLM)は社会を変革し、多様な応用へと浸透している。
その結果、LSMは私たちや他のエージェントと頻繁に対話します。
したがって、LLMが対話型社会環境でどのように振る舞うかを理解することは、大きな社会的価値である。
本稿では,LLMの協調行動と協調行動を研究するために行動ゲーム理論を提案する。
そのために,異なるLLM(GPT-3,GPT-3.5,GPT-4)を,人間的な戦略と有限繰り返しプレイする。
以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。
2人のプレイヤー・ツー・ストラテジゲームの大きなセットでは、llmは、囚人のジレンマファミリーのような自己利益を評価できるゲームにおいて特に優れていることが分かっています。
しかし、調整を必要とするゲームでは準最適に振る舞う。
したがって、我々はこれらの異なる家族の2つのゲームにさらに焦点を当てている。
反復囚人のジレンマでは、gpt-4は特に不注意に作用し、他のエージェントが一度だけ欠陥した後に常に欠陥する。
セクシーズの戦いにおいて、GPT-4は選択肢間の交互に単純な慣習の振る舞いと一致しないことがわかった。
これらの動作シグネチャがロバストネスチェックで安定であることを検証する。
最後に、GPT-4の動作が他のプレイヤーについてさらに情報を提供し、選択する前に相手プレイヤーの動作を予測することでどのように修正できるかを示す。
これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
関連論文リスト
- Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Will GPT-4 Run DOOM? [0.0]
GPT-4の推論と計画能力は1993年のファーストパーソンシューティングゲーム『Doom』にまで拡張されている。
GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
論文 参考訳(メタデータ) (2024-03-08T17:30:41Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Can Large Language Models Serve as Rational Players in Game Theory? A
Systematic Analysis [16.285154752969717]
本研究では,ゲーム理論の文脈で大規模言語モデル(LLM)を体系的に解析する。
実験により、現在最先端のLLMでさえ、ゲーム理論において人間とはかなり異なることが示されている。
論文 参考訳(メタデータ) (2023-12-09T07:33:26Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。