論文の概要: Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making
- arxiv url: http://arxiv.org/abs/2510.03514v1
- Date: Fri, 03 Oct 2025 20:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.086004
- Title: Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making
- Title(参考訳): 戦前の赤線と白地 : 大規模言語モデル軍事意思決定における法的リスク、道徳的ハーム、地域バイアスのベンチマーク
- Authors: Toby Drinkall,
- Abstract要約: 本研究では,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマークフレームワークを開発する。
我々は国際人道法(IHL)と軍事教義に基づく4つの指標を紹介する。
GPT-4o, Gemini-2.5, LLaMA-3.1の3つのフロンティアモデルを90個のマルチエージェント・マルチターン危機シミュレーションにより評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As military organisations consider integrating large language models (LLMs) into command and control (C2) systems for planning and decision support, understanding their behavioural tendencies is critical. This study develops a benchmarking framework for evaluating aspects of legal and moral risk in targeting behaviour by comparing LLMs acting as agents in multi-turn simulated conflict. We introduce four metrics grounded in International Humanitarian Law (IHL) and military doctrine: Civilian Target Rate (CTR) and Dual-use Target Rate (DTR) assess compliance with legal targeting principles, while Mean and Max Simulated Non-combatant Casualty Value (SNCV) quantify tolerance for civilian harm. We evaluate three frontier models, GPT-4o, Gemini-2.5, and LLaMA-3.1, through 90 multi-agent, multi-turn crisis simulations across three geographic regions. Our findings reveal that off-the-shelf LLMs exhibit concerning and unpredictable targeting behaviour in simulated conflict environments. All models violated the IHL principle of distinction by targeting civilian objects, with breach rates ranging from 16.7% to 66.7%. Harm tolerance escalated through crisis simulations with MeanSNCV increasing from 16.5 in early turns to 27.7 in late turns. Significant inter-model variation emerged: LLaMA-3.1 selected an average of 3.47 civilian strikes per simulation with MeanSNCV of 28.4, while Gemini-2.5 selected 0.90 civilian strikes with MeanSNCV of 17.6. These differences indicate that model selection for deployment constitutes a choice about acceptable legal and moral risk profiles in military operations. This work seeks to provide a proof-of-concept of potential behavioural risks that could emerge from the use of LLMs in Decision Support Systems (AI DSS) as well as a reproducible benchmarking framework with interpretable metrics for standardising pre-deployment testing.
- Abstract(参考訳): 軍事組織は、大規模言語モデル(LLM)を計画と意思決定支援のためのコマンド・アンド・コントロール(C2)システムに統合することを検討するため、その行動傾向を理解することが重要である。
本研究では,マルチターン・シミュレート・コンフリクトにおけるエージェントとして機能するLDMを比較検討することにより,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマーク・フレームワークを開発した。
市民目標率(CTR)とデュアルユース目標率(DTR)は、法的なターゲティング原則の遵守を評価する一方、MeanとMax Simulated Non-combatant Casualty Value(SNCV)は、民間の害に対する寛容を定量化する。
我々は,GPT-4o,Gemini-2.5,LLaMA-3.1の3つのフロンティアモデルについて,90個のマルチエージェント・マルチターン危機シミュレーションを用いて評価した。
実験の結果, 既成のLLMは, 模擬紛争環境において, 予測不可能な標的行動を示すことが明らかとなった。
全てのモデルは民間の物体を標的としたIHLの原則に反し、侵害率は16.7%から66.7%であった。
ハーム耐性は危機シミュレーションを通じて増大し、MeanSNCVは初期の16.5から後期の27.7に増加した。
LLaMA-3.1は平均3.47発のMeanSNCVを28.4発、ジェミニ2.5は0.90発のMeanSNCVを17.6発とした。
これらの違いは、展開のためのモデル選択が、軍事作戦において許容される法的および道徳的リスクプロファイルの選択を構成することを示している。
この研究は、LLMs in Decision Support Systems(AI DSS)の使用から生じる潜在的な行動リスクの実証と、事前デプロイテストの標準化のための解釈可能なメトリクスを備えた再現可能なベンチマークフレームワークを提供することを目指している。
関連論文リスト
- CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making [0.9310318514564272]
大きな言語モデルは、合法的に異なる文化的価値システム間の明示的な衝突をナビゲートすることができる。
CCD-Benchは、文化的価値の対立の下で意思決定を評価するベンチマークである。
CCD-Benchは、孤立バイアス検出以上の評価を多元的意思決定にシフトする。
論文 参考訳(メタデータ) (2025-10-03T22:55:37Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models [2.11457423143017]
本研究では,7つの基礎モデルのバイアスと嗜好を評価するための新しいベンチマークを提案する。
400の専門的なシナリオを使用して、選択したモデルの結果を分析しました。
すべてのモデルは、ある程度の国固有の偏見を示しており、しばしば、中国とロシアに対するエスカレーションや介入の行動を減らすことを推奨している。
論文 参考訳(メタデータ) (2025-03-08T16:19:13Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。