論文の概要: When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification
- arxiv url: http://arxiv.org/abs/2507.20700v1
- Date: Mon, 28 Jul 2025 10:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.082144
- Title: When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification
- Title(参考訳): 多様性に直面する時--細粒度多言語クレーム検証に基づく言語モデルの評価
- Authors: Hanna Shcharbakova, Tatiana Anikina, Natalia Skachkova, Josef van Genabith,
- Abstract要約: 大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
- 参考スコア(独自算出の注目度): 14.187153195380668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid spread of multilingual misinformation requires robust automated fact verification systems capable of handling fine-grained veracity assessments across diverse languages. While large language models have shown remarkable capabilities across many NLP tasks, their effectiveness for multilingual claim verification with nuanced classification schemes remains understudied. We conduct a comprehensive evaluation of five state-of-the-art language models on the X-Fact dataset, which spans 25 languages with seven distinct veracity categories. Our experiments compare small language models (encoder-based XLM-R and mT5) with recent decoder-only LLMs (Llama 3.1, Qwen 2.5, Mistral Nemo) using both prompting and fine-tuning approaches. Surprisingly, we find that XLM-R (270M parameters) substantially outperforms all tested LLMs (7-12B parameters), achieving 57.7% macro-F1 compared to the best LLM performance of 16.9%. This represents a 15.8% improvement over the previous state-of-the-art (41.9%), establishing new performance benchmarks for multilingual fact verification. Our analysis reveals problematic patterns in LLM behavior, including systematic difficulties in leveraging evidence and pronounced biases toward frequent categories in imbalanced data settings. These findings suggest that for fine-grained multilingual fact verification, smaller specialized models may be more effective than general-purpose large models, with important implications for practical deployment of fact-checking systems.
- Abstract(参考訳): 多言語誤報の急速な拡散は、多言語にわたるきめ細かい精度評価を処理できる堅牢な自動事実検証システムを必要とする。
大規模言語モデルは、多くのNLPタスクにおいて顕著な能力を示してきたが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性はいまだ検討されていない。
X-Factデータセットでは、7つの異なるカテゴリを持つ25言語にまたがる5つの最先端言語モデルを包括的に評価する。
実験では,小言語モデル (エンコーダベースXLM-R, mT5) と最近のデコーダ専用LLM (Llama 3.1, Qwen 2.5, Mistral Nemo) を比較した。
驚くべきことに、XLM-R (270Mパラメータ) は試験済みのLLM(7-12Bパラメータ)をほぼ上回り、最高のLLM性能の16.9%と比較して57.7%のマクロF1を達成している。
これは、過去の最先端(41.9%)よりも15.8%改善され、多言語事実検証のための新しいパフォーマンスベンチマークが確立されたことを意味する。
分析の結果,不均衡なデータ設定において,証拠の活用や頻繁なカテゴリに対する偏見の顕在化など,LCM行動の問題点が明らかになった。
これらの結果から, より詳細な多言語事実検証では, より小型の専門モデルの方が汎用的な大規模モデルよりも有効であり, ファクトチェックシステムの実践的展開に重要な意味があることが示唆された。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。