論文の概要: Do LLMs Know When to Flip a Coin? Strategic Randomization through Reasoning and Experience
- arxiv url: http://arxiv.org/abs/2506.18928v1
- Date: Sat, 21 Jun 2025 05:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.29321
- Title: Do LLMs Know When to Flip a Coin? Strategic Randomization through Reasoning and Experience
- Title(参考訳): LLMはいつコインをフリップするか知っているか? 推論と経験による戦略的ランダム化
- Authors: Lingyu Yang,
- Abstract要約: 戦略的ランダム化はゲーム理論の鍵となる原理であるが、大きな言語モデル(LLM)では未探索のままである。
我々は,天地競馬に触発された新たなゼロサムゲームを提案し,ナッシュ均衡は最大エントロピー戦略に対応する。
より弱いモデルはプロンプトによらず決定論的であることを示し、強いモデルは明示的なヒントの下でランダム化を増大させることを示した。
- 参考スコア(独自算出の注目度): 1.7223564681760168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strategic randomization is a key principle in game theory, yet it remains underexplored in large language models (LLMs). Prior work often conflates the cognitive decision to randomize with the mechanical generation of randomness, leading to incomplete evaluations. To address this, we propose a novel zero-sum game inspired by the Tian Ji Horse Race, where the Nash equilibrium corresponds to a maximal entropy strategy. The game's complexity masks this property from untrained humans and underdeveloped LLMs. We evaluate five LLMs across prompt styles -- framed, neutral, and hinted -- using competitive multi-tournament gameplay with system-provided random choices, isolating the decision to randomize. Results show that weaker models remain deterministic regardless of prompts, while stronger models exhibit increased randomization under explicit hints. When facing weaker models, strong LLMs adopt deterministic strategies to exploit biases, but converge toward equilibrium play when facing peers. Through win/loss outcomes and Bayes factor analysis, we demonstrate meaningful variation in LLMs' strategic reasoning capabilities, highlighting opportunities for improvement in abstract reasoning and adaptive learning. We make our implementation publicly available at https://github.com/ocelopus/llm-when-to-throw-coin to ensure full reproducibility.
- Abstract(参考訳): 戦略的ランダム化はゲーム理論の鍵となる原理であるが、大きな言語モデル(LLM)では未探索である。
先行研究は、しばしばランダム性の機械的生成とランダム化する認知的決定を混同し、不完全な評価へと繋がる。
これを解決するために,天地競馬に触発された新しいゼロサムゲームを提案し,ナッシュ均衡は最大エントロピー戦略に対応する。
ゲームの複雑さは、未学習の人間と未開発のLDMからこの特性を隠蔽する。
我々は,システム提供ランダム選択と競合するマルチタスクゲームプレイを用いて,プロンプトスタイル(フレームド,中立,ヒント)にまたがる5つのLSMを評価し,ランダム化の決定を分離した。
その結果、より弱いモデルはプロンプトによらず決定論的であり、強いモデルは明示的なヒントの下でランダム化を増大させることを示した。
弱いモデルに直面している場合、強いLLMはバイアスを悪用する決定論的戦略を採用するが、ピアと対向するときに平衡に収束する。
勝敗結果とベイズ因子分析を通じて,LLMの戦略的推論能力の有意義な変動を示し,抽象的推論と適応学習の改善の機会を強調した。
完全な再現性を確保するため、実装をhttps://github.com/ocelopus/llm-when-to-throw-coinで公開しています。
関連論文リスト
- Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文 参考訳(メタデータ) (2025-03-04T13:04:48Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。