論文の概要: Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers
- arxiv url: http://arxiv.org/abs/2506.13342v1
- Date: Mon, 16 Jun 2025 10:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.191157
- Title: Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers
- Title(参考訳): 検証器の検証:実検証器の落とし穴とポテンシャルを解き明かす
- Authors: Wooseok Seo, Seungju Han, Jaehun Jung, Benjamin Newman, Seungwon Lim, Seungbeen Lee, Ximing Lu, Yejin Choi, Youngjae Yu,
- Abstract要約: 我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
- 参考スコア(独自算出の注目度): 59.168391398830515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact verification is essential for ensuring the reliability of LLM applications. In this study, we evaluate 12 pre-trained LLMs and one specialized fact-verifier, including frontier LLMs and open-weight reasoning LLMs, using a collection of examples from 14 fact-checking benchmarks. We share three findings intended to guide future development of more robust fact verifiers. First, we highlight the importance of addressing annotation errors and ambiguity in datasets, demonstrating that approximately 16\% of ambiguous or incorrectly labeled data substantially influences model rankings. Neglecting this issue may result in misleading conclusions during comparative evaluations, and we suggest using a systematic pipeline utilizing LLM-as-a-judge to help identify these issues at scale. Second, we discover that frontier LLMs with few-shot in-context examples, often overlooked in previous works, achieve top-tier performance. We therefore recommend future studies include comparisons with these simple yet highly effective baselines. Lastly, despite their effectiveness, frontier LLMs incur substantial costs, motivating the development of small, fine-tuned fact verifiers. We show that these small models still have room for improvement, particularly on instances that require complex reasoning. Encouragingly, we demonstrate that augmenting training with synthetic multi-hop reasoning data significantly enhances their capabilities in such instances. We release our code, model, and dataset at https://github.com/just1nseo/verifying-the-verifiers
- Abstract(参考訳): LLMアプリケーションの信頼性を確保するためには、ファクト検証が不可欠である。
本研究では,14のファクトチェックベンチマークを用いて,12の事前学習 LLM と,フロンティア LLM とオープンウェイト推論 LLM を含む1つのファクト検証器の評価を行った。
我々は、より堅牢な事実検証装置の開発を導くための3つの知見を共有している。
まず、データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調し、約16倍の曖昧さまたは誤ラベル付きデータがモデルランキングに大きく影響していることを示す。
この問題を無視すると、比較評価中に誤解を招く結果になる可能性があり、LLM-as-a-judgeを用いた系統的なパイプラインを用いて、これらの問題を大規模に特定することを提案する。
第2に,テキスト内サンプルがほとんどないフロンティアLLMが,それまでの作業で見落とされ,トップレベルのパフォーマンスを実現することが判明した。
したがって、これらの単純で効果的なベースラインとの比較を含む将来の研究を推奨する。
最後に、その効果にもかかわらず、フロンティアのLLMは相当なコストを発生させ、小型で微調整された事実検証器の開発を動機付けている。
これらの小さなモデルは、特に複雑な推論を必要とするインスタンスにおいて、まだ改善の余地があることを示します。
さらに, 合成マルチホップ推論データによる強化訓練が, それらの能力を大幅に向上させることを示した。
コード、モデル、データセットをhttps://github.com/just1nseo/verifying-the-verifiersでリリースします。
関連論文リスト
- Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。