論文の概要: Evaluating Counterfactual Strategic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19167v1
- Date: Thu, 19 Mar 2026 17:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.29672
- Title: Evaluating Counterfactual Strategic Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける対実的戦略推論の評価
- Authors: Dimitrios Georgousis, Maria Lymperaiou, Angeliki Dimitriou, Giorgos Filandrianos, Giorgos Stamou,
- Abstract要約: ゲーム理論の繰り返し設定において,Large Language Models (LLMs) を評価する。
プリソナーズ・ジレンマ (PD) とロック・パパー・シッセラー (RPS) の2つの標準ゲームを考える。
- 参考スコア(独自算出の注目度): 12.949562489002304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We evaluate Large Language Models (LLMs) in repeated game-theoretic settings to assess whether strategic performance reflects genuine reasoning or reliance on memorized patterns. We consider two canonical games, Prisoner's Dilemma (PD) and Rock-Paper-Scissors (RPS), upon which we introduce counterfactual variants that alter payoff structures and action labels, breaking familiar symmetries and dominance relations. Our multi-metric evaluation framework compares default and counterfactual instantiations, showcasing LLM limitations in incentive sensitivity, structural generalization and strategic reasoning within counterfactual environments.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) をゲーム理論の繰り返し設定で評価し,戦略性能が真の推論や記憶パターンへの依存を反映しているかどうかを評価する。
プリソナーズ・ジレンマ (PD) とロック・パパー・シッザーズ (RPS) の2つの標準的なゲームについて検討し、そこでは、ペイオフ構造やアクションラベルを変更する反ファクトな変形を導入し、よく知られた対称性と支配関係を破る。
提案するマルチメトリック評価フレームワークは, インセンティブ感度, 構造的一般化, および, 対実環境における戦略的推論におけるLCM制限を, 既定および反実環境のインスタンス化と比較する。
関連論文リスト
- CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs [10.29314561183905]
ゲームプレイ能力は、大規模言語モデルの戦略的推論能力を評価する指標となる。
行動経済学の認知階層モデルに着想を得た新しい評価フレームワークであるCHBenchを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:10:26Z) - RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation [15.205635488139043]
大規模言語モデル(LLM)における推論能力の階層構造を特徴付けるフレームワークであるRE-IMAGINEを紹介する。
中間記号表現における問題を変更することにより、RE-IMAGINEは暗記だけでは解けない多くの問題を任意に生成する。
提案手法は, LLM の複数のファミリーを評価するために広く利用されている4つのベンチマークで実証し, モデルに問題ばらつきがある場合の性能低下を観察する。
論文 参考訳(メタデータ) (2025-06-18T13:35:47Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Framing the Game: How Context Shapes LLM Decision-Making [6.844612005679165]
大規模言語モデル(LLM)は、意思決定をサポートするために、さまざまなコンテキストにまたがってデプロイされるようになっている。
既存の評価は遅延モデル能力を効果的に調査するが、コンテキストフレーミングが合理的な意思決定に与える影響をしばしば見落としている。
本稿では,重要な特徴にまたがって評価インスタンスを体系的に変化させる新しい評価フレームワークを導入し,非常に多様なシナリオを生成するためのウィグレットを手続き的に生成する。
論文 参考訳(メタデータ) (2025-03-05T17:03:28Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。