Fugu-MT 論文翻訳(概要): Playing repeated games with Large Language Models

論文の概要: Playing repeated games with Large Language Models

arxiv url: http://arxiv.org/abs/2305.16867v1
Date: Fri, 26 May 2023 12:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 15:15:20.406521
Title: Playing repeated games with Large Language Models
Title（参考訳）: 大きな言語モデルで繰り返しゲームをプレイする
Authors: Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, Eric Schulz
Abstract要約: 行動ゲーム理論を用いて,大規模言語モデルの協調行動と協調行動を研究する。以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
参考スコア（独自算出の注目度）: 20.63964279913456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are transforming society and permeating into diverse applications. As a result, LLMs will frequently interact with us and other agents. It is, therefore, of great societal value to understand how LLMs behave in interactive social settings. Here, we propose to use behavioral game theory to study LLM's cooperation and coordination behavior. To do so, we let different LLMs (GPT-3, GPT-3.5, and GPT-4) play finitely repeated games with each other and with other, human-like strategies. Our results show that LLMs generally perform well in such tasks and also uncover persistent behavioral signatures. In a large set of two players-two strategies games, we find that LLMs are particularly good at games where valuing their own self-interest pays off, like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination. We, therefore, further focus on two games from these distinct families. In the canonical iterated Prisoner's Dilemma, we find that GPT-4 acts particularly unforgivingly, always defecting after another agent has defected only once. In the Battle of the Sexes, we find that GPT-4 cannot match the behavior of the simple convention to alternate between options. We verify that these behavioral signatures are stable across robustness checks. Finally, we show how GPT-4's behavior can be modified by providing further information about the other player as well as by asking it to predict the other player's actions before making a choice. These results enrich our understanding of LLM's social behavior and pave the way for a behavioral game theory for machines.
Abstract（参考訳）: 大規模言語モデル(LLM)は社会を変革し、多様な応用へと浸透している。その結果、LSMは私たちや他のエージェントと頻繁に対話します。したがって、LLMが対話型社会環境でどのように振る舞うかを理解することは、大きな社会的価値である。本稿では,LLMの協調行動と協調行動を研究するために行動ゲーム理論を提案する。そのために,異なるLLM(GPT-3,GPT-3.5,GPT-4)を,人間的な戦略と有限繰り返しプレイする。以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。 2人のプレイヤー・ツー・ストラテジゲームの大きなセットでは、llmは、囚人のジレンマファミリーのような自己利益を評価できるゲームにおいて特に優れていることが分かっています。しかし、調整を必要とするゲームでは準最適に振る舞う。したがって、我々はこれらの異なる家族の2つのゲームにさらに焦点を当てている。反復囚人のジレンマでは、gpt-4は特に不注意に作用し、他のエージェントが一度だけ欠陥した後に常に欠陥する。セクシーズの戦いにおいて、GPT-4は選択肢間の交互に単純な慣習の振る舞いと一致しないことがわかった。これらの動作シグネチャがロバストネスチェックで安定であることを検証する。最後に、GPT-4の動作が他のプレイヤーについてさらに情報を提供し、選択する前に相手プレイヤーの動作を予測することでどのように修正できるかを示す。これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。

関連論文リスト

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文参考訳（メタデータ） (2025-05-25T16:19:24Z)
Humans expect rationality and cooperation from LLM opponents in strategic games [0.0]
本研究は,人間の行動の差異に着目した最初の金銭的インセンティブを持つ実験室実験の結果である。この環境下では,LLMと対戦する被験者は人間よりも有意に少ない数を選択する。この変化は、主に戦略的推論能力の高い被験者によって引き起こされる。
論文参考訳（メタデータ） (2025-05-16T09:01:09Z)
Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文参考訳（メタデータ） (2025-03-04T13:04:48Z)
Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文参考訳（メタデータ） (2024-12-19T15:39:31Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。 LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文参考訳（メタデータ） (2024-10-01T18:40:43Z)
Game Development as Human-LLM Interaction [55.03293214439741]
本稿では,Human-LLMインタラクションを利用したChat Game Engine(ChatGE)を紹介する。 ChatGEは、Human-LLMインタラクションを通じて、自然言語を使ってカスタムゲームを開発することができる。ポーカーゲームのためのChatGEをケーススタディとして構築し、インタラクションの品質とコードの正確性という2つの観点から評価する。
論文参考訳（メタデータ） (2024-08-18T07:06:57Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。 Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文参考訳（メタデータ） (2024-06-19T14:51:14Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
Will GPT-4 Run DOOM? [0.0]
GPT-4の推論と計画能力は1993年のファーストパーソンシューティングゲーム『Doom』にまで拡張されている。 GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
論文参考訳（メタデータ） (2024-03-08T17:30:41Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Can Large Language Models Serve as Rational Players in Game Theory? A Systematic Analysis [16.285154752969717]
本研究では,ゲーム理論の文脈で大規模言語モデル(LLM)を体系的に解析する。実験により、現在最先端のLLMでさえ、ゲーム理論において人間とはかなり異なることが示されている。
論文参考訳（メタデータ） (2023-12-09T07:33:26Z)
LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文参考訳（メタデータ） (2023-10-23T14:35:26Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。 RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T14:47:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。