論文の概要: What Suppresses Nash Equilibrium Play in Large Language Models? Mechanistic Evidence and Causal Control
- arxiv url: http://arxiv.org/abs/2604.27167v2
- Date: Mon, 04 May 2026 01:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:06.995488
- Title: What Suppresses Nash Equilibrium Play in Large Language Models? Mechanistic Evidence and Causal Control
- Title(参考訳): 大規模言語モデルにおけるナッシュ平衡プレイの抑制 : 機械的エビデンスと因果制御
- Authors: Paraskevas V. Lekeas, Giorgos Stamatopoulos,
- Abstract要約: LLMエージェントは戦略的相互作用においてナッシュ平衡から逸脱することが知られているが、理由を理解するためにモデルの内部を見た者はいない。
我々は,自己再生実験とクロスプレイ実験により行動画像を確立し,32層Llama-3-8Bモデルを開く。
機械的知見は明確であり,第1層にほぼ完全な忠実度で対向履歴を符号化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are known to deviate from Nash equilibria in strategic interactions, but nobody has looked inside the model to understand why, or asked whether the deviation can be reversed. We do both. Working with four open-source models (Llama-3 and Qwen2.5, 8B to 72B parameters) playing four canonical two-player games, we establish the behavioral picture through self-play and cross-play experiments, then open up the 32-layer Llama-3-8B model and examine what actually happens during a strategic decision. The mechanistic findings are clear. Opponent history is encoded with near-perfect fidelity at the first layer (96% probe accuracy) and consumed progressively, while Nash action encoding is weak throughout, never exceeding 56%. There is no dedicated Nash module. Instead, the model privately favors the Nash action through most of its forward pass, but a prosocial override rooted in pretraining on human text concentrated in the final layers reverses this, reaching 84% probability of cooperation at layer 30. Injecting a learned Nash direction into the residual stream shifts behavior bidirectionally and causally, confirmed through concept clamping. The behavioral experiments surface six scale- and architecture-dependent findings, the most notable being that chain-of-thought reasoning worsens Nash play in small models but achieves near-perfect Nash play above 70B parameters. The cross-play experiments reveal three phenomena invisible in self-play: a small model can unravel any partner's cooperation by defecting early; two large models reinforce each other's cooperative instincts indefinitely; and who moves first determines which Nash equilibrium the system reaches. LLMs do not lack Nash-playing competence. They compute it, then suppress it.
- Abstract(参考訳): LLMエージェントは戦略的相互作用においてナッシュ平衡から逸脱することが知られているが、理由を理解するためにモデルの内部を見た者はいない。
両方です。
4つのオープンソースモデル(Llama-3, Qwen2.5, 8B, 72Bパラメータ)で4つの標準2プレーヤゲームをプレイし, 自己再生実験とクロスプレイ実験により行動図を構築し, 32層のLlama-3-8Bモデルを開き, 戦略決定中に実際に何が起こるかを調べる。
機械的な発見は明らかである。
応答履歴は第1層のほぼ完全な忠実度(96%のプローブ精度)でエンコードされ、徐々に消費される一方、ナッシュアクションエンコーディングは全体で弱く、56%を超えない。
専用のNashモジュールはありません。
代わりに、モデルではフォワードパスの大部分を通じてナッシュアクションを個人的に好んでいるが、最終層に集中した人間のテキストの事前訓練に根ざした社会的過渡は、これを逆転させ、30層での協調の確率は84%に達する。
学習したナッシュ方向を残留流に注入すると、概念クランプによって双方向かつ因果的に行動が変化する。
行動実験は6つのスケールおよびアーキテクチャに依存した発見を表面化し、最も注目すべきはチェーン・オブ・ソートによる推論が、小さなモデルではナッシュのプレイを悪化させるが、70Bパラメータ以上のほぼ完全なナッシュのプレイを達成することである。
クロスプレイ実験では、パートナーの協力関係を早期に解き放つ小さなモデル、2つの大きなモデルが相互の協力的本能を無限に補強し、最初にシステムがどのナッシュ均衡に達するかを決定するという3つの現象が自己プレイで見えない。
LLMにはナッシュプレイ能力がない。
彼らはそれを計算し、それを抑制します。
関連論文リスト
- Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning [51.77462571479799]
マルチエージェント模倣学習(MA-IL)は、マルチエージェント対話ドメインにおけるインタラクションのエキスパートによる実証から最適なポリシーを学ぶことを目的としている。
学習したポリシのパフォーマンスに関する保証は存在するが、オフラインMA-ILでは、学習した警察がナッシュ均衡からどこまで離れているかの特徴が欠落している。
論文 参考訳(メタデータ) (2026-02-24T15:38:11Z) - Data Poisoning to Fake a Nash Equilibrium in Markov Games [11.36770403327493]
マルチエージェント強化学習(MARL)におけるオフラインデータ中毒攻撃の特徴について述べる。
我々は、一意なナッシュ集合、すなわち、それらのQ関数によって指定されたゲームの集合を提案する。
ユニークなナッシュセットは、データ中毒がセット内のすべてのプレイをプッシュした場合に限り、攻撃が成功するため、攻撃の中心となる。
論文 参考訳(メタデータ) (2023-06-13T18:01:18Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Abstracting Imperfect Information Away from Two-Player Zero-Sum Games [85.27865680662973]
Nayyar et al. (2013) は、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。
この研究は、ある正規化された平衡が上記の非対応問題を持たないことを示している。
これらの正規化された平衡はナッシュ平衡に任意に近づくことができるので、この結果は2つのプレイヤーゼロサムゲームを解くための新たな視点への扉を開く。
論文 参考訳(メタデータ) (2023-01-22T16:54:06Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。