Fugu-MT 論文翻訳(概要): MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents

論文の概要: MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents

arxiv url: http://arxiv.org/abs/2404.10774v2
Date: Tue, 01 Oct 2024 15:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 17:31:49.951837
Title: MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents
Title（参考訳）: MiniCheck: グラウンドドキュメンテーション上でのLLMの効率的なFact-Checking
Authors: Liyan Tang, Philippe Laban, Greg Durrett,
Abstract要約: GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
参考スコア（独自算出の注目度）: 62.02920842630234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing if LLM output can be grounded in evidence is central to many tasks in NLP: retrieval-augmented generation, summarization, document-grounded dialogue, and more. Current approaches to this kind of fact-checking are based on verifying each piece of a model generation against potential evidence using an LLM. However, this process can be very computationally expensive, requiring many calls to a model to check a single response. In this work, we show how to build small fact-checking models that have GPT-4-level performance but for 400x lower cost. We do this by constructing synthetic training data with GPT-4, which involves creating realistic yet challenging instances of factual errors via a structured generation procedure. Training on this data teaches models to check each fact in the claim and recognize synthesis of information across sentences. For evaluation, we unify datasets from recent work on fact-checking and grounding LLM generations into a new benchmark, LLM-AggreFact. Our best system MiniCheck-FT5 (770M parameters) outperforms all systems of comparable size and reaches GPT-4 accuracy. We release LLM-AggreFact, code for data synthesis, and models.
Abstract（参考訳）: LLMの出力がエビデンスで根拠付けられるかどうかを認識することは、NLPにおける多くのタスクの中心である:検索強化生成、要約、文書地上対話など。この種のファクトチェックへの現在のアプローチは、LLMを使用してモデル生成の各部品を潜在的な証拠に対して検証することに基づいている。しかし、このプロセスは非常に計算コストがかかり、単一の応答をチェックするためにモデルへの多くの呼び出しが必要になる。本稿では,GPT-4レベルの性能を持つ小さなファクトチェックモデルを構築する方法を示す。我々はGPT-4を用いて合成トレーニングデータを構築し、構造化された生成手順を用いて現実的かつ挑戦的な事実エラーの事例を作成する。このデータに基づくトレーニングは、モデルにクレーム内の各事実をチェックし、文間で情報の合成を認識するように教える。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。 LLM-AggreFact、データ合成のためのコード、およびモデルをリリースする。

関連論文リスト

ClaimCheck: Real-Time Fact-Checking with Small Language Models [5.305110876082343]
ClaimCheckは、現実のクレームを検証するために設計されたLLM誘導のファクトチェックシステムである。大規模なクローズドソースモデルに依存する従来のシステムとは異なり、ClaymCheckは透過的でステップワイズな検証パイプラインを採用している。各モジュールは小さなLLMに最適化されており、システムは正確で解釈可能なファクトチェックを提供することができる。
論文参考訳（メタデータ） (2025-09-22T21:18:08Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data [13.108807408880645]
本稿では,文書から抽出したコンテキストグラフのマルチホップ推論を利用した合成データ生成手法であるCG2Cを提案する。我々のファクトチェッカーモデルであるFactCGは、同じバックボーンモデルを用いて、より接続された推論によるパフォーマンスの向上を示す。
論文参考訳（メタデータ） (2025-01-28T18:45:07Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。 CLEARは、どのトレーニングデータが低品質であるかを見積もる。実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2024-03-19T14:44:45Z)
OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。 SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文参考訳（メタデータ） (2024-02-20T11:01:39Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。