Fugu-MT 論文翻訳(概要): Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

論文の概要: Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

arxiv url: http://arxiv.org/abs/2605.04177v1
Date: Tue, 05 May 2026 18:14:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-07 18:41:07.478518
Title: Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa
Title（参考訳）: LLMは紛争監視の準備は整っているか? 西アフリカからの実証的証拠
Authors: Hoffmann Muki, Olukunle Owolabi,
Abstract要約: Gemma 3 4B, Llama 3.2 3B, Mistral 7B, OLMo 2 7BおよびAfroConfliBERTとAfroConfliLLAMAの2つのドメイン適応モデルについて検討した。オープンウェイトモデルは統計的に有意な偽 Illegitimation バイアスを示す。我々は、アクターに基づく選択バイアスを減らすために、公正な微調整、語彙操作に対する必然的敵意評価、コンテキスト固有の人間-イン・ザ・ループの監視を求める。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLMs enter conflict monitoring, understanding systematic distortions in their outputs is critical for humanitarian accountability. We evaluate four vanilla open-weight models Gemma 3 4B, Llama 3.2 3B, Mistral 7B, and OLMo 2 7B and two domain-adapted models, AfroConfliBERT and AfroConfliLLAMA, on Nigeria and Cameroon conflict-event classification against ACLED, a gold-standard dataset with multi-stage verification. We find a bifurcated divergence in normative directionality. Open-weight models exhibit statistically significant False Illegitimation bias: Gemma misclassifies to 18.29% of legitimate battles as civilian-targeted violence while making zero False Legitimation errors. By contrast, AfroConfliBERT and AfroConfliLLAMA achieve near-directional neutrality, with Legitimization Bias differences indistinguishable from zero. Yet domain adaptation does not eliminate actor-based selection bias. Both adapted models show statistically significant actor bias comparable to vanilla LLMs; in Nigeria, state actors are legitimized 36.5% more often than non-state actors in identical tactical contexts. Open-weight outputs are also fragile to geography-specific lexical framing: delegitimizing phrases produce flip rates up to 66.7% in Cameroon and 34.2% in Nigeria, while perturbations salient in one context may not matter in another. Error trace profiling shows models mask normative bias through unfaithful rationale confabulations. In contrast, AfroConfliBERT and AfroConfliLLAMA are largely robust, with near-zero flip rates across perturbation categories. Overall, current models are not ready for unsupervised deployment in conflict monitoring. We call for fairness-aware fine-tuning to reduce actor-based selection bias, mandatory adversarial robustness evaluation against lexical manipulation, and context-specific human-in-the-loop oversight calibrated to regional difficulty.
Abstract（参考訳）: LLMが紛争監視に入ると、アウトプットの系統的歪みを理解することは人道的説明責任にとって重要である。我々はナイジェリアとカメルーンの紛争時分類において,多段階認証付きゴールド標準データセットACLEDに対して,Gemma 3 4B,Llama 3.2 3B,Mistral 7B,OLMo 2 7B,AfroConfliBERT,AfroConfliLLAMAの4つのバニラオープンウェイトモデルとドメイン適応モデルAfroConfliBERT,AfroConfliLLAMAの2つを評価した。規範的指向性において分岐した分岐を見いだす。ゲマは18.29%の合法的な戦闘を民間の標的とした暴力と誤分類し、偽の合法的誤りをゼロにする。対照的に、AfroConfliBERT と AfroConfliLLAMA は、正準化バイアス差が 0 と区別できないため、ほぼ方向性の中立性を達成する。しかし、ドメイン適応はアクターベースの選択バイアスを排除しない。両モデルともバニラのLSMに匹敵する統計的に有意なアクターバイアスを示しており、ナイジェリアでは、国家のアクターは同じ戦術的な文脈で非国家のアクターよりも36.5%の確率で合法化されている。カメルーンでは66.7%、ナイジェリアでは34.2%、ある文脈では摂動は重要でない。誤りトレースプロファイリング(英語版)は、モデルが不誠実な合理性衝突を通して規範的バイアスをマスクしていることを示している。対照的に、AfroConfliBERT と AfroConfliLLAMA は、摂動カテゴリ間でほぼゼロのフリップ率を持つ、ほぼ堅牢である。全体として、現在のモデルは、コンフリクト監視における教師なしデプロイメントの準備が整っていない。我々は,アクターによる選択バイアスを低減するためのフェアネス対応の微調整,語彙操作に対する正反対の頑健性評価,および地域的困難に配慮したコンテキスト特異的な人道監視を求める。

論文の概要: Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

関連論文リスト