論文の概要: Strategic Behavior of Large Language Models: Game Structure vs.
Contextual Framing
- arxiv url: http://arxiv.org/abs/2309.05898v1
- Date: Tue, 12 Sep 2023 00:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:52:40.804563
- Title: Strategic Behavior of Large Language Models: Game Structure vs.
Contextual Framing
- Title(参考訳): 大規模言語モデルの戦略的行動--ゲーム構造と文脈フレーミング
- Authors: Nunzio Lor\`e, Babak Heydari
- Abstract要約: 本稿では,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。
4つの標準的な2プレイヤーゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the strategic decision-making capabilities of three
Large Language Models (LLMs): GPT-3.5, GPT-4, and LLaMa-2, within the framework
of game theory. Utilizing four canonical two-player games -- Prisoner's
Dilemma, Stag Hunt, Snowdrift, and Prisoner's Delight -- we explore how these
models navigate social dilemmas, situations where players can either cooperate
for a collective benefit or defect for individual gain. Crucially, we extend
our analysis to examine the role of contextual framing, such as diplomatic
relations or casual friendships, in shaping the models' decisions. Our findings
reveal a complex landscape: while GPT-3.5 is highly sensitive to contextual
framing, it shows limited ability to engage in abstract strategic reasoning.
Both GPT-4 and LLaMa-2 adjust their strategies based on game structure and
context, but LLaMa-2 exhibits a more nuanced understanding of the games'
underlying mechanics. These results highlight the current limitations and
varied proficiencies of LLMs in strategic decision-making, cautioning against
their unqualified use in tasks requiring complex strategic reasoning.
- Abstract(参考訳): 本稿では,ゲーム理論の枠組みの中で,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。
囚人のジレンマ、スタッグハント、スノードリフト、囚人の喜びという4つの標準的な2人プレイゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを調べます。
本研究は,外交関係やカジュアルな友情といった文脈的フレーミングが,モデルの決定を形作る上で果たす役割について検討するために,分析を拡張した。
GPT-3.5は文脈的フレーミングに非常に敏感であるが,抽象的な戦略的推論を行う能力は限られている。
GPT-4とLLaMa-2はゲームの構造とコンテキストに基づいて戦略を調整するが、LLaMa-2はゲームの基礎となるメカニズムをより微妙に理解している。
これらの結果は、戦略的意思決定におけるLLMの現在の限界と様々な能力を強調し、複雑な戦略的推論を必要とするタスクにおける不適格な使用に対して警告する。
関連論文リスト
- Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay [0.0]
私たちは戦略的思考と意思決定を評価するために、Tic-Tac-Toe、Connect Four、Battleshipといったゲームを使用しています。
標準ベンチマークに習熟しているにもかかわらず、GPT-3.5とGPT-4のプレイ能力と、事前トレーニングなしで完全に観察可能なゲームについて推論する能力は、ごくわずかである。
論文 参考訳(メタデータ) (2024-07-12T14:17:26Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - CivRealm: A Learning and Reasoning Odyssey in Civilization for
Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。
CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (2024-01-19T09:14:11Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。