論文の概要: Measuring and Eliminating Refusals in Military Large Language Models
- arxiv url: http://arxiv.org/abs/2603.10012v1
- Date: Wed, 18 Feb 2026 00:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.564806
- Title: Measuring and Eliminating Refusals in Military Large Language Models
- Title(参考訳): 軍用大規模言語モデルにおける拒絶の計測と除去
- Authors: Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman,
- Abstract要約: 軍事大規模言語モデル(LLM)は、時間的・危険な状況下で戦闘員に正確な情報を提供する必要がある。
LLMには、軍事領域における多くの正当なクエリをLLMが拒否する安全行動が組み込まれている。
本研究では,31の公用モデルと3の軍用モデルに対する拒絶率と偏向率について検討した。
- 参考スコア(独自算出の注目度): 3.68226032003527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Military Large Language Models (LLMs) must provide accurate information to the warfighter in time-critical and dangerous situations. However, today's LLMs are imbued with safety behaviors that cause the LLM to refuse many legitimate queries in the military domain, particularly those related to violence, terrorism, or military technology. Our gold benchmark for assessing refusal rates, which was developed by veterans of the US Army and special forces, is to our knowledge the first dataset of its kind. We present results for refusal and deflection rates on 31 public models and 3 military models. We observe hard rejection rates as high as 98.2% and soft deflection rates ranging from 0% to 21.3%. We also present results on two additional synthetic datasets and show their correlations with the gold dataset. Finally, we perform abliteration using the Heretic library on a military-tuned gpt-oss-20b model, showing an absolute increase in answer rate of 66.5 points but an average relative decrease of 2% on other military tasks. In our concluding remarks, we argue for deeper specialization, including with mid-training and end-to-end post-training, to achieve zero refusals and maximum military task accuracy for closed military models.
- Abstract(参考訳): 軍事大規模言語モデル(LLM)は、時間的・危険な状況下で戦闘員に正確な情報を提供する必要がある。
しかし、今日のLLMには、LLMが軍事領域、特に暴力、テロリズム、軍事技術に関する多くの合法的な問い合わせを拒否する安全行動が組み込まれている。
米軍の退役軍人と特殊部隊によって開発された拒絶率を評価するための金のベンチマークは、この種のデータセットの最初のものである。
本研究では,31の公用モデルと3の軍用モデルに対する拒絶率と偏向率について述べる。
強い拒絶率を98.2%、柔らかい偏向率を0%から21.3%と観測する。
また、2つの追加合成データセットについて結果を示し、金のデータセットとの相関を示す。
最後に,兵装訓練したgpt-oss-20bモデルでHereticライブラリーを用いて,解答率66.5ポイントの絶対的な増加を示すが,他の軍事作業では平均2%の低下を示す。
結論として, 閉鎖型軍事モデルにおけるゼロ拒絶と最大軍事タスク精度を達成するために, 中間訓練と終末訓練を含むより深い専門化を論じる。
関連論文リスト
- How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms [0.0]
RIKERは、人間のアノテーションを使わずに決定論的スコアリングを可能にする基礎的第一評価手法である。
その結果,最も優れたモデルでさえ,非自明な速度で回答を作成できることがわかった。
結果はハードウェアプラットフォーム間で一貫性があり、デプロイメントの決定がハードウェアに依存していないことを確認する。
論文 参考訳(メタデータ) (2026-03-09T11:44:06Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Red Lines and Grey Zones in the Fog of War: Benchmarking Legal Risk, Moral Harm, and Regional Bias in Large Language Model Military Decision-Making [0.0]
本研究では,ターゲット行動における法的・道徳的リスクの側面を評価するためのベンチマークフレームワークを開発する。
我々は国際人道法(IHL)と軍事教義に基づく4つの指標を紹介する。
GPT-4o, Gemini-2.5, LLaMA-3.1の3つのフロンティアモデルを90個のマルチエージェント・マルチターン危機シミュレーションにより評価した。
論文 参考訳(メタデータ) (2025-10-03T20:55:04Z) - Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks [45.85816281779304]
Refusal Index(RI)は、Large Language Models(LLM)が知らない質問をどれだけ正確に拒否するかを測定する、原則化された指標である。
16のモデルと5つのデータセットにわたる大規模な実験により、RIは実際のタスクにおいて、モデルの本質的な知識を意識した拒絶能力を正確に定量化できることを示した。
論文 参考訳(メタデータ) (2025-10-02T08:20:36Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - The GPT Dilemma: Foundation Models and the Shadow of Dual-Use [0.0]
本稿では、基礎モデルの二重利用課題と、国際安全保障に影響を及ぼすリスクについて検討する。
本稿では,基礎モデルの開発サイクルにおいて,モデル入力,機能,システム利用事例,システム展開の4つの重要な要因を分析した。
本稿では、中距離原子力軍(INF)条約をケーススタディとして、関連するリスクを軽減するためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-07-29T22:36:27Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。