論文の概要: MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models
- arxiv url: http://arxiv.org/abs/2602.16298v1
- Date: Wed, 18 Feb 2026 09:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.557899
- Title: MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models
- Title(参考訳): MultiCW:ロバストチェックウェアネス検出モデルのトレーニングのための大規模バランスベンチマークデータセット
- Authors: Martin Hyben, Sebastian Kula, Jan Cegin, Jakub Simko, Ivan Srba, Robert Moro,
- Abstract要約: Multi-Check-Worthyデータセットは16言語、7つのトピックドメイン、2つの書き込みスタイルにまたがる。
123,722のサンプルからなり、ノイズ(非形式)と構造化(形式)のテキストの間に均等に分散し、すべての言語でチェックに相応しいクラスと非チェックに相応しいクラスのバランスが取れている。
- 参考スコア(独自算出の注目度): 6.382707047064603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are beginning to reshape how media professionals verify information, yet automated support for detecting check-worthy claims a key step in the fact-checking process remains limited. We introduce the Multi-Check-Worthy (MultiCW) dataset, a balanced multilingual benchmark for check-worthy claim detection spanning 16 languages, 7 topical domains, and 2 writing styles. It consists of 123,722 samples, evenly distributed between noisy (informal) and structured (formal) texts, with balanced representation of check-worthy and non-check-worthy classes across all languages. To probe robustness, we also introduce an equally balanced out-of-distribution evaluation set of 27,761 samples in 4 additional languages. To provide baselines, we benchmark 3 common fine-tuned multilingual transformers against a diverse set of 15 commercial and open LLMs under zero-shot settings. Our findings show that fine-tuned models consistently outperform zero-shot LLMs on claim classification and show strong out-of-distribution generalization across languages, domains, and styles. MultiCW provides a rigorous multilingual resource for advancing automated fact-checking and enables systematic comparisons between fine-tuned models and cutting-edge LLMs on the check-worthy claim detection task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メディア専門家が情報の検証方法を変え始めているが、事実確認プロセスにおける重要なステップとして、チェック価値のあるクレームを検出するための自動サポートが依然として限られている。
我々は16言語、7つのトピックドメイン、2つの書き込みスタイルにまたがるチェック価値のあるクレーム検出のためのバランスの取れたマルチ言語ベンチマークであるMultiCWデータセットを紹介した。
123,722のサンプルからなり、ノイズ(非形式)と構造化(形式)のテキストの間に均等に分散し、すべての言語でチェックに相応しいクラスと非チェックに相応しいクラスのバランスが取れている。
また、ロバスト性を調べるために、4つの追加言語で27,761個のサンプルを均等にバランスの取れたアウト・オブ・ディストリビューション評価セットを導入する。
ベースラインを提供するため、ゼロショット設定下で15個の商用およびオープンLLMの多様なセットに対して3つの共通微調整多言語変換器をベンチマークした。
その結果,微調整モデルではクレーム分類においてゼロショットLLMを一貫して上回り,言語,ドメイン,スタイルにまたがる分布外一般化が強かった。
MultiCWは、自動ファクトチェックを進めるための厳格な多言語リソースを提供し、チェック価値のあるクレーム検出タスクにおいて、細調整されたモデルと最先端のLCMの体系的な比較を可能にする。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation [0.0]
大規模言語モデル(LLM)の多言語機能を強化するための新しいパラメータ効率フレームワークであるPolyPromptを紹介する。
提案手法では,各言語に対するトリガトークンの集合を勾配に基づく探索により学習し,入力クエリの言語を識別し,推論中にプロンプトにプリコンパイルされた対応するトリガトークンを選択する。
我々は20億のパラメータモデルで実験を行い、15の類型的および資源的多様言語にわたる世界MMLUベンチマークで評価を行い、ナイーブおよびトランスレーショナル・ピペリンベースラインと比較して3.7%-19.9%の精度向上を示した。
論文 参考訳(メタデータ) (2025-02-27T04:41:22Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。