論文の概要: Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making
- arxiv url: http://arxiv.org/abs/2510.03514v1
- Date: Fri, 03 Oct 2025 20:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.086004
- Title: Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making
- Title(参考訳): 戦前の赤線と白地 : 大規模言語モデル軍事意思決定における法的リスク、道徳的ハーム、地域バイアスのベンチマーク
- Authors: Toby Drinkall,
- Abstract要約: 本研究では,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマークフレームワークを開発する。
我々は国際人道法(IHL)と軍事教義に基づく4つの指標を紹介する。
GPT-4o, Gemini-2.5, LLaMA-3.1の3つのフロンティアモデルを90個のマルチエージェント・マルチターン危機シミュレーションにより評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As military organisations consider integrating large language models (LLMs) into command and control (C2) systems for planning and decision support, understanding their behavioural tendencies is critical. This study develops a benchmarking framework for evaluating aspects of legal and moral risk in targeting behaviour by comparing LLMs acting as agents in multi-turn simulated conflict. We introduce four metrics grounded in International Humanitarian Law (IHL) and military doctrine: Civilian Target Rate (CTR) and Dual-use Target Rate (DTR) assess compliance with legal targeting principles, while Mean and Max Simulated Non-combatant Casualty Value (SNCV) quantify tolerance for civilian harm. We evaluate three frontier models, GPT-4o, Gemini-2.5, and LLaMA-3.1, through 90 multi-agent, multi-turn crisis simulations across three geographic regions. Our findings reveal that off-the-shelf LLMs exhibit concerning and unpredictable targeting behaviour in simulated conflict environments. All models violated the IHL principle of distinction by targeting civilian objects, with breach rates ranging from 16.7% to 66.7%. Harm tolerance escalated through crisis simulations with MeanSNCV increasing from 16.5 in early turns to 27.7 in late turns. Significant inter-model variation emerged: LLaMA-3.1 selected an average of 3.47 civilian strikes per simulation with MeanSNCV of 28.4, while Gemini-2.5 selected 0.90 civilian strikes with MeanSNCV of 17.6. These differences indicate that model selection for deployment constitutes a choice about acceptable legal and moral risk profiles in military operations. This work seeks to provide a proof-of-concept of potential behavioural risks that could emerge from the use of LLMs in Decision Support Systems (AI DSS) as well as a reproducible benchmarking framework with interpretable metrics for standardising pre-deployment testing.
- Abstract(参考訳): 軍事組織は、大規模言語モデル(LLM)を計画と意思決定支援のためのコマンド・アンド・コントロール(C2)システムに統合することを検討するため、その行動傾向を理解することが重要である。
本研究では,マルチターン・シミュレート・コンフリクトにおけるエージェントとして機能するLDMを比較検討することにより,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマーク・フレームワークを開発した。
市民目標率(CTR)とデュアルユース目標率(DTR)は、法的なターゲティング原則の遵守を評価する一方、MeanとMax Simulated Non-combatant Casualty Value(SNCV)は、民間の害に対する寛容を定量化する。
我々は,GPT-4o,Gemini-2.5,LLaMA-3.1の3つのフロンティアモデルについて,90個のマルチエージェント・マルチターン危機シミュレーションを用いて評価した。
実験の結果, 既成のLLMは, 模擬紛争環境において, 予測不可能な標的行動を示すことが明らかとなった。
全てのモデルは民間の物体を標的としたIHLの原則に反し、侵害率は16.7%から66.7%であった。
ハーム耐性は危機シミュレーションを通じて増大し、MeanSNCVは初期の16.5から後期の27.7に増加した。
LLaMA-3.1は平均3.47発のMeanSNCVを28.4発、ジェミニ2.5は0.90発のMeanSNCVを17.6発とした。
これらの違いは、展開のためのモデル選択が、軍事作戦において許容される法的および道徳的リスクプロファイルの選択を構成することを示している。
この研究は、LLMs in Decision Support Systems(AI DSS)の使用から生じる潜在的な行動リスクの実証と、事前デプロイテストの標準化のための解釈可能なメトリクスを備えた再現可能なベンチマークフレームワークを提供することを目指している。
関連論文リスト
- LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations [2.430361444826172]
大規模言語モデル(LLM)は、戦略的意思決定環境においてエージェントとしてますます提案されている。
我々は,4つの現実的危機シミュレーションシナリオにまたがる人間による結果と合わせて,最先端のLLMを6つ評価した。
我々は、行動アライメントにおけるモデルと、選択された行動の深刻度によるリスクキャリブレーション、国際関係論に基づく議論的フレーミングを比較した。
論文 参考訳(メタデータ) (2026-03-02T17:46:17Z) - A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents [4.851169906977996]
40の異なるシナリオからなる新しいベンチマークを導入する。
各シナリオはマルチステップアクションを必要とするタスクを示し、エージェントのパフォーマンスは特定のキーパフォーマンス指標(KPI)に結び付けられている。
我々は、結果駆動の制約違反を1.3%から71.4%まで観察し、12モデルのうち9モデルが30%から50%の不正調整率を示した。
論文 参考訳(メタデータ) (2025-12-23T21:52:53Z) - Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making [0.9310318514564272]
大きな言語モデルは、合法的に異なる文化的価値システム間の明示的な衝突をナビゲートすることができる。
CCD-Benchは、文化的価値の対立の下で意思決定を評価するベンチマークである。
CCD-Benchは、孤立バイアス検出以上の評価を多元的意思決定にシフトする。
論文 参考訳(メタデータ) (2025-10-03T22:55:37Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models [2.11457423143017]
本研究では,7つの基礎モデルのバイアスと嗜好を評価するための新しいベンチマークを提案する。
400の専門的なシナリオを使用して、選択したモデルの結果を分析しました。
すべてのモデルは、ある程度の国固有の偏見を示しており、しばしば、中国とロシアに対するエスカレーションや介入の行動を減らすことを推奨している。
論文 参考訳(メタデータ) (2025-03-08T16:19:13Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。