論文の概要: MUCH: A Multilingual Claim Hallucination Benchmark
- arxiv url: http://arxiv.org/abs/2511.17081v1
- Date: Fri, 21 Nov 2025 09:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.958319
- Title: MUCH: A Multilingual Claim Hallucination Benchmark
- Title(参考訳): MUCH:多言語クレーム幻覚ベンチマーク
- Authors: Jérémie Dentan, Alexi Canesse, Davide Buscaldi, Aymen Shabou, Sonia Vanier,
- Abstract要約: その多くは、将来の手法の公平かつ再現可能な評価のために設計された最初のクレームレベルのUQベンチマークである。
4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)にまたがる4,873のサンプルと、4つの命令で調整されたオープンウェイトLLMが含まれている。
- 参考スコア(独自算出の注目度): 5.6001617185032595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Claim-level Uncertainty Quantification (UQ) is a promising approach to mitigate the lack of reliability in Large Language Models (LLMs). We introduce MUCH, the first claim-level UQ benchmark designed for fair and reproducible evaluation of future methods under realistic conditions. It includes 4,873 samples across four European languages (English, French, Spanish, and German) and four instruction-tuned open-weight LLMs. Unlike prior claim-level benchmarks, we release 24 generation logits per token, facilitating the development of future white-box methods without re-generating data. Moreover, in contrast to previous benchmarks that rely on manual or LLM-based segmentation, we propose a new deterministic algorithm capable of segmenting claims using as little as 0.2% of the LLM generation time. This makes our segmentation approach suitable for real-time monitoring of LLM outputs, ensuring that MUCH evaluates UQ methods under realistic deployment constraints. Finally, our evaluations show that current methods still have substantial room for improvement in both performance and efficiency.
- Abstract(参考訳): クラミムレベルの不確実性定量化(UQ)は、LLM(Large Language Models)における信頼性の欠如を軽減するための有望なアプローチである。
MUCHは,現実的な条件下での将来の手法の公正かつ再現可能な評価のために設計された,最初のクレームレベルのUQベンチマークである。
4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)にまたがる4,873のサンプルと、4つの命令で調整されたオープンウェイトLLMが含まれている。
従来のクレームレベルのベンチマークとは異なり、トークン毎に24世代ログをリリースし、データを再生成することなく、将来のホワイトボックスメソッドの開発を容易にします。
さらに,手動またはLLMに基づくセグメンテーションに依存する従来のベンチマークとは対照的に,LLM生成時間の0.2%程度でクレームをセグメント化できる新しい決定論的アルゴリズムを提案する。
これにより、LLM出力のリアルタイムモニタリングに適したセグメンテーションアプローチが実現され、MUCHが実際のデプロイメント制約下でUQメソッドを評価することが保証される。
最後に, 評価結果から, 現在の手法は, 性能と効率の両面において, 十分な改善の余地があることが示唆された。
関連論文リスト
- TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks [0.3546535332022512]
大規模言語モデル(LLM)は、推論タスクを実行する能力がますます高まっていることが示されている。
しかし、不確実性の下でシーケンシャルな決定を行う能力は、自然言語のみを用いて探索されていない。
我々は,LLMが純粋にテキストフィードバックを用いて,マルチアームのバンディット環境と相互作用する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-13T19:44:48Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。