論文の概要: InFi-Check: Interpretable and Fine-Grained Fact-Checking of LLMs
- arxiv url: http://arxiv.org/abs/2601.06666v1
- Date: Sat, 10 Jan 2026 20:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.928536
- Title: InFi-Check: Interpretable and Fine-Grained Fact-Checking of LLMs
- Title(参考訳): InFi-Check:LLMの解釈・微粒化Fact-Checking
- Authors: Yuzhuo Bai, Shuzheng Si, Kangyang Luo, Qingyi Wang, Wenhao Li, Gang Chen, Fanchao Qi, Maosong Sun,
- Abstract要約: InFi-Checkは、大規模な言語モデルの解釈ときめ細かい事実チェックのためのフレームワークである。
InFi-Checkerは、サポートエビデンスを提供し、きめ細かいエラータイプを分類し、修正と共に正当化を生成する。
実験の結果,InFi-CheckerはInFi-Check-FGの最先端性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 48.98720183285795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often hallucinate, yet most existing fact-checking methods treat factuality evaluation as a binary classification problem, offering limited interpretability and failing to capture fine-grained error types. In this paper, we introduce InFi-Check, a framework for interpretable and fine-grained fact-checking of LLM outputs. Specifically, we first propose a controlled data synthesis pipeline that generates high-quality data featuring explicit evidence, fine-grained error type labels, justifications, and corrections. Based on this, we further construct large-scale training data and a manually verified benchmark InFi-Check-FG for fine-grained fact-checking of LLM outputs. Building on these high-quality training data, we further propose InFi-Checker, which can jointly provide supporting evidence, classify fine-grained error types, and produce justifications along with corrections. Experiments show that InFi-Checker achieves state-of-the-art performance on InFi-Check-FG and strong generalization across various downstream tasks, significantly improving the utility and trustworthiness of factuality evaluation.
- Abstract(参考訳): 大型言語モデル (LLM) はしばしば幻覚を呈するが、既存のファクトチェック手法は、事実性評価を二項分類問題として扱い、限定的な解釈可能性を提供し、きめ細かいエラータイプを捕捉できない。
本稿では,LLM出力の詳細なファクトチェックを行うためのフレームワークであるInFi-Checkを紹介する。
具体的には、まず、明示的なエビデンス、きめ細かいエラータイプラベル、正当化、修正を含む高品質なデータを生成する制御データ合成パイプラインを提案する。
そこで我々は,LLM出力のきめ細かいファクトチェックを行うための大規模トレーニングデータと,手動で検証したベンチマークInFi-Check-FGを構築した。
さらに,これらの高品質なトレーニングデータを基にしたInFi-Checkerを提案する。
実験により,InFi-Checkerは,InFi-Check-FG上での最先端性能と,下流タスク間の高度な一般化を実現し,実感評価の有用性と信頼性を著しく向上することが示された。
関連論文リスト
- Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。