論文の概要: Cross-Lingual Stability and Bias in Instruction-Tuned Language Models for Humanitarian NLP
- arxiv url: http://arxiv.org/abs/2510.22823v1
- Date: Sun, 26 Oct 2025 20:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.378495
- Title: Cross-Lingual Stability and Bias in Instruction-Tuned Language Models for Humanitarian NLP
- Title(参考訳): 人道的NLPのための命令型言語モデルの言語間安定性とバイアス
- Authors: Poli Nemkova, Amrit Adhikari, Matthew Pearson, Vamsi Krishna Sadu, Mark V. Albert,
- Abstract要約: コストのかかる商用APIに投資するか、多言語人権監視のための無償のオープンウェイトモデルに依存している。
本稿では,商業的およびオープンウェイトな大規模言語モデル (LLM) を,7言語にわたる人権侵害検出のために初めて体系的に比較した。
- 参考スコア(独自算出の注目度): 1.443824675157688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanitarian organizations face a critical choice: invest in costly commercial APIs or rely on free open-weight models for multilingual human rights monitoring. While commercial systems offer reliability, open-weight alternatives lack empirical validation -- especially for low-resource languages common in conflict zones. This paper presents the first systematic comparison of commercial and open-weight large language models (LLMs) for human-rights-violation detection across seven languages, quantifying the cost-reliability trade-off facing resource-constrained organizations. Across 78,000 multilingual inferences, we evaluate six models -- four instruction-aligned (Claude-Sonnet-4, DeepSeek-V3, Gemini-Flash-2.0, GPT-4.1-mini) and two open-weight (LLaMA-3-8B, Mistral-7B) -- using both standard classification metrics and new measures of cross-lingual reliability: Calibration Deviation (CD), Decision Bias (B), Language Robustness Score (LRS), and Language Stability Score (LSS). Results show that alignment, not scale, determines stability: aligned models maintain near-invariant accuracy and balanced calibration across typologically distant and low-resource languages (e.g., Lingala, Burmese), while open-weight models exhibit significant prompt-language sensitivity and calibration drift. These findings demonstrate that multilingual alignment enables language-agnostic reasoning and provide practical guidance for humanitarian organizations balancing budget constraints with reliability in multilingual deployment.
- Abstract(参考訳): コストのかかる商用APIに投資するか、多言語人権監視のための無償のオープンウェイトモデルに依存している。
商用システムは信頼性を提供するが、オープンウェイトな代替手段には実証的な検証が欠如している。
本稿では、7言語にわたる人権侵害検出のための商用およびオープンウェイトな大規模言語モデル(LLM)の体系的比較を行い、資源制約に直面するコスト-信頼性のトレードオフを定量化する。
78,000の多言語推論で,4つの命令整列モデル (Claude-Sonnet-4, DeepSeek-V3, Gemini-Flash-2.0, GPT-4.1-mini) と2つのオープンウェイトモデル (LLaMA-3-8B, Mistral-7B) を比較した。
その結果、アライメントはスケールではなく安定性が決定されることがわかった: アライメントモデルは、タイポロジー的に離れた低リソース言語(例えば、リンガラ、ビルマ)でほぼ不変の精度を維持し、キャリブレーションのバランスを保ち、一方、オープンウェイトモデルは、迅速な言語感度とキャリブレーションドリフトを示す。
これらの結果から,多言語アライメントは言語に依存しない推論を可能にし,多言語展開における予算制約と信頼性のバランスをとる人道的組織に対して実践的なガイダンスを提供することが示された。
関連論文リスト
- Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [24.39952838336609]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのフレームワークである。
FLUKEの実用性は、6つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models [10.231866835957538]
大型言語モデル(LLM)における推論能力を高める重要なメカニズムとして、Chain-of-Thought(CoT)が登場した。
LLMの推論能力を高めるために,多数決による多言語推論経路を統合した言語間整合性(CLC)フレームワークを提案する。
CMATHデータセットの実証評価により、従来の自己整合性法よりもCLCの方が優れていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-02T16:09:39Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。