論文の概要: WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making
- arxiv url: http://arxiv.org/abs/2603.21280v1
- Date: Sun, 22 Mar 2026 15:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.324017
- Title: WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making
- Title(参考訳): WARBENCH:軍事的意思決定におけるLLM評価のための総合ベンチマーク
- Authors: Zongjie Li, Chaozheng Wang, Yuchong Xie, Pingchuan Ma, Shuai Wang,
- Abstract要約: 大規模言語モデルは、安全クリティカルな軍事アプリケーションへの展開のために、ますます検討されている。
既存のフレームワークは通常、国際人道法(IHL)に基づく厳格な法的制約を無視し、エッジコンピューティングの制限を省略し、明確な推論を不十分に評価する。
本稿では,4つの異なるストレス試験次元とともに基礎的戦術的ベースラインを確立する総合的な評価フレームワークであるWARBENCHについて述べる。
- 参考スコア(独自算出の注目度): 14.561500413856642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are increasingly being considered for deployment in safety-critical military applications. However, current benchmarks suffer from structural blindspots that systematically overestimate model capabilities in real-world tactical scenarios. Existing frameworks typically ignore strict legal constraints based on International Humanitarian Law (IHL), omit edge computing limitations, lack robustness testing for fog of war, and inadequately evaluate explicit reasoning. To address these vulnerabilities, we present WARBENCH, a comprehensive evaluation framework establishing a foundational tactical baseline alongside four distinct stress testing dimensions. Through a large scale empirical evaluation of nine leading models on 136 high-fidelity historical scenarios, we reveal severe structural flaws. First, baseline tactical reasoning systematically collapses under complex terrain and high force asymmetry. Second, while state of the art closed source models maintain functional compliance, edge-optimized small models expose extreme operational risks with legal violation rates approaching 70 percent. Furthermore, models experience catastrophic performance degradation under 4-bit quantization and systematic information loss. Conversely, explicit reasoning mechanisms serve as highly effective structural safeguards against inadvertent violations. Ultimately, these findings demonstrate that current models remain fundamentally unready for autonomous deployment in high stakes tactical environments.
- Abstract(参考訳): 大規模言語モデルは、安全クリティカルな軍事アプリケーションへの展開のために、ますます検討されている。
しかし、現在のベンチマークでは、実際の戦術シナリオにおけるモデル能力を体系的に過大評価する構造的な盲点に悩まされている。
既存のフレームワークは通常、国際人道法(IHL)に基づく厳格な法的制約を無視し、エッジコンピューティングの制限を省略し、戦争の霧に対する堅牢性試験を欠いている。
これらの脆弱性に対処するため, WARBENCHは, 4つの異なるストレス試験次元と共に基礎的戦術的ベースラインを確立する包括的評価フレームワークである。
高忠実度歴史的シナリオ136において, 9つの先行モデルについて大規模に評価した結果, 重大な構造的欠陥が明らかとなった。
まず、ベースラインの戦術的推論は複雑な地形と高力非対称性の下で体系的に崩壊する。
第二に、最先端のクローズドソースモデルが機能コンプライアンスを維持している一方で、エッジ最適化された小さなモデルは、法的な違反率が70%に近づき、極端な運用上のリスクを露呈している。
さらに、4ビット量子化と系統的な情報損失による破滅的な性能劣化を経験する。
逆に、明示的な推論機構は、意図しない違反に対する極めて効果的な構造的保護として機能する。
最終的に、これらの発見は、現在のモデルが戦術的環境において、自律的な展開に不適当であることを示します。
関連論文リスト
- Pressure Reveals Character: Behavioural Alignment Evaluation at Depth [3.634215320925722]
正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。
我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。
トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
論文 参考訳(メタデータ) (2026-02-24T11:52:17Z) - Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。
10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。
汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文 参考訳(メタデータ) (2025-08-06T08:25:40Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。