論文の概要: Strategic Coercion Within Alliances: The Greenland Sovereignty Game as an AI Stress Test
- arxiv url: http://arxiv.org/abs/2605.22841v1
- Date: Mon, 11 May 2026 19:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.937011
- Title: Strategic Coercion Within Alliances: The Greenland Sovereignty Game as an AI Stress Test
- Title(参考訳): AIストレステストとしてのグリーンランド・ソブリンティゲーム
- Authors: Rommin Adl, Peyton Williams,
- Abstract要約: 地政学LLMのストレステストとしてグリーンランドの主権危機について検討する。
この危機は、北極圏の戦略統制と、NATOが支配的な加盟国に対して同盟の規範を強制できるかどうかという2つの集団行動問題を引き起こしている。
我々は,3つのゲーム(非対称的強制,臨界質量ピーク点を持つNATO保証ゲーム,社会的嗜好を持つ三進的広角形ゲーム)を開発し,マルチエージェントシミュレーションでそれらを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What happens when the strongest alliance member pressures a weaker member over territory and strategic control? We examine the Greenland sovereignty crisis as a stress test for LLM geopolitics, centered on the 2019-2026 U.S. push to acquire Greenland from the Kingdom of Denmark. The crisis nests two collective-action problems: Arctic strategic control and whether NATO can enforce alliance norms against the dominant member. We develop three games (asymmetric coercion; a NATO assurance game with a critical-mass tipping point; a triadic extensive-form game with social preferences) and test them with a multi-agent simulation in which eight frontier LLMs play six geopolitical roles (United States, Denmark, Greenland, NATO, Russia, Canada) across 3,604 completed games and 108,120 action observations. Using inverse game theory, we recover each model's structural utility parameters (alpha, beta, gamma, delta, eta) for material self-interest, reciprocity, inequality aversion, norm respect, and commitment consistency. Three findings stand out. First, all eight models become more escalatory under coercion framing (four-action escalation rises from 10.7% to 28.6%). Second, Chinese-origin models show systematically different power-weight profiles from Western-origin models when playing the U.S. role. Third, peaceful US acquisition emerges in only 1.9% of clean games and only 3 of 8 frontier models ever achieve it, most prominently DeepSeek V3.2, which executes a stable five-round playbook through the metropole. Prompts emphasizing jus cogens and self-determination reduce escalation back near baseline in the English-only confirmatory sample; multilingual contrasts are reported as exploratory sensitivity checks. We position this as a structural benchmark for LLM geopolitical behavior, complementing action-frequency benchmarks.
- Abstract(参考訳): 最強の同盟国が領土と戦略的支配を弱めるとどうなるのか。
我々は、グリーンランドの主権危機を、2019-2026年のアメリカ合衆国によるデンマーク王国からのグリーンランド買収の推進を中心としたLLM地政学のストレステストとして検討する。
この危機は、北極圏の戦略統制と、NATOが支配的な加盟国に対して同盟の規範を強制できるかどうかという2つの集団行動問題を引き起こしている。
我々は,3つのゲーム(非対称的強制,臨界質量のピーク点を持つNATO保証ゲーム,社会的嗜好を持つ三進的広角形ゲーム)を開発し,これらを,3,604個の完成ゲームと108,120個のアクション・オブザーバーで,8つのフロンティアLSMが6つの地政学的役割(米国,デンマーク,グリーンランド,NATO,ロシア,カナダ)を演じるマルチエージェント・シミュレーションで検証した。
逆ゲーム理論を用いて、各モデルの構造的効用パラメータ(アルファ、ベータ、ガンマ、デルタ、eta)を、物質的自己利益、相互性、不等式回避、規範尊重、コミットメント整合性のために復元する。
3つの発見がある。
第一に、8つのモデルは全て、強制フレーミング(英語版)の下でよりエスカレーションされる(4アクションエスカレーションは10.7%から28.6%に上昇する)。
第二に、中国オリジンモデルでは、アメリカ合衆国の役を演じる際、西洋オリジンモデルと体系的に異なるパワーウェイトプロファイルが示される。
第三に、平和的なアメリカの買収はクリーンゲームのわずか1.9%、フロンティアモデルのわずか3つに過ぎず、特にDeepSeek V3.2はメトロールを通して安定した5ラウンドのプレイブックを実行する。
Jus cogens と self-determination を強調するプロンプトは、英語のみの確認サンプルのベースライン付近でのエスカレーションを減少させ、多言語コントラストは探索感度チェックとして報告されている。
我々はこれを、行動周波数ベンチマークを補完するLLM地政学的行動の構造的ベンチマークとして位置付ける。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models [0.269220799495636]
大規模言語モデル(LLM)は、市場、オークション、入札設定における経済エージェントとして、ますます多くデプロイされている。
既存の戦略推論ベンチマークは、固定された標準ゲーム上のモデルを評価する。
これらの課題に対処するために、手続き的に生成された戦略的環境を利用するGENSTRATを導入する。
論文 参考訳(メタデータ) (2026-05-22T05:13:45Z) - AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises [0.0]
我々は,核危機における3つのフロンティア大言語モデルが対立する指導者を演じる危機シミュレーションの結果を提示する。
我々の発見は、戦略理論の中心的信条の検証と挑戦の両方である。
我々は、AIシミュレーションが戦略的分析の強力なツールであると主張するが、人間の推論の既知のパターンに対して適切に調整された場合のみである。
論文 参考訳(メタデータ) (2026-02-16T13:35:01Z) - Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games [0.0]
カードゲームは、不確実性の下でシーケンシャルな意思決定を研究するために広く使われている。
有界片側対応ゲーム(BORG)を特徴とするゲームを指す。
我々は、この動的を隔離するベンチマーク環境として、Monopoly Dealの修正版を紹介します。
論文 参考訳(メタデータ) (2025-10-29T01:38:19Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making [0.9310318514564272]
大きな言語モデルは、合法的に異なる文化的価値システム間の明示的な衝突をナビゲートすることができる。
CCD-Benchは、文化的価値の対立の下で意思決定を評価するベンチマークである。
CCD-Benchは、孤立バイアス検出以上の評価を多元的意思決定にシフトする。
論文 参考訳(メタデータ) (2025-10-03T22:55:37Z) - Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making [0.0]
本研究では,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマークフレームワークを開発する。
我々は国際人道法(IHL)と軍事教義に基づく4つの指標を紹介する。
GPT-4o, Gemini-2.5, LLaMA-3.1の3つのフロンティアモデルを90個のマルチエージェント・マルチターン危機シミュレーションにより評価した。
論文 参考訳(メタデータ) (2025-10-03T20:55:04Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。