Fugu-MT 論文翻訳(概要): Strategic Behavior of Large Language Models: Game Structure vs. Contextual Framing

論文の概要: Strategic Behavior of Large Language Models: Game Structure vs. Contextual Framing

arxiv url: http://arxiv.org/abs/2309.05898v1
Date: Tue, 12 Sep 2023 00:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 14:52:40.804563
Title: Strategic Behavior of Large Language Models: Game Structure vs. Contextual Framing
Title（参考訳）: 大規模言語モデルの戦略的行動--ゲーム構造と文脈フレーミング
Authors: Nunzio Lor\`e, Babak Heydari
Abstract要約: 本稿では,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。 4つの標準的な2プレイヤーゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを探索する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the strategic decision-making capabilities of three Large Language Models (LLMs): GPT-3.5, GPT-4, and LLaMa-2, within the framework of game theory. Utilizing four canonical two-player games -- Prisoner's Dilemma, Stag Hunt, Snowdrift, and Prisoner's Delight -- we explore how these models navigate social dilemmas, situations where players can either cooperate for a collective benefit or defect for individual gain. Crucially, we extend our analysis to examine the role of contextual framing, such as diplomatic relations or casual friendships, in shaping the models' decisions. Our findings reveal a complex landscape: while GPT-3.5 is highly sensitive to contextual framing, it shows limited ability to engage in abstract strategic reasoning. Both GPT-4 and LLaMa-2 adjust their strategies based on game structure and context, but LLaMa-2 exhibits a more nuanced understanding of the games' underlying mechanics. These results highlight the current limitations and varied proficiencies of LLMs in strategic decision-making, cautioning against their unqualified use in tasks requiring complex strategic reasoning.
Abstract（参考訳）: 本稿では,ゲーム理論の枠組みの中で,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。囚人のジレンマ、スタッグハント、スノードリフト、囚人の喜びという4つの標準的な2人プレイゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを調べます。本研究は,外交関係やカジュアルな友情といった文脈的フレーミングが,モデルの決定を形作る上で果たす役割について検討するために,分析を拡張した。 GPT-3.5は文脈的フレーミングに非常に敏感であるが,抽象的な戦略的推論を行う能力は限られている。 GPT-4とLLaMa-2はゲームの構造とコンテキストに基づいて戦略を調整するが、LLaMa-2はゲームの基礎となるメカニズムをより微妙に理解している。これらの結果は、戦略的意思決定におけるLLMの現在の限界と様々な能力を強調し、複雑な戦略的推論を必要とするタスクにおける不適格な使用に対して警告する。

関連論文リスト

Strategic Intelligence in Large Language Models: Evidence from evolutionary Game Theory [0.0]
我々は,Large Language Models (LLMs) に対する説得力のある支持証拠を提示する。私たちは、先進的なフロンティアAI企業OpenAI、Google、およびAnthropicのエージェントに対する標準的な戦略を練り、進化的なIDDトーナメントを初めて実施します。以上の結果から, LLMは競争力が高く, 持続的であり, 複雑な生態系で増殖することさえあることが示唆された。
論文参考訳（メタデータ） (2025-07-03T13:45:02Z)
Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文参考訳（メタデータ） (2025-03-04T13:04:48Z)
TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文参考訳（メタデータ） (2024-10-14T13:15:34Z)
Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay [0.0]
私たちは戦略的思考と意思決定を評価するために、Tic-Tac-Toe、Connect Four、Battleshipといったゲームを使用しています。標準ベンチマークに習熟しているにもかかわらず、GPT-3.5とGPT-4のプレイ能力と、事前トレーニングなしで完全に観察可能なゲームについて推論する能力は、ごくわずかである。
論文参考訳（メタデータ） (2024-07-12T14:17:26Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文参考訳（メタデータ） (2024-06-07T00:28:43Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)
CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文参考訳（メタデータ） (2024-01-19T09:14:11Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。