論文の概要: Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors
- arxiv url: http://arxiv.org/abs/2406.13009v1
- Date: Tue, 18 Jun 2024 18:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:18:18.539274
- Title: Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors
- Title(参考訳): 組込みプロンプト(DEEP:Ensembling Prompts)によるエラー検出 : 実エラー検出のためのエンドツーエンドLLMフレームワーク
- Authors: Alex Chandler, Devesh Surve, Hui Su,
- Abstract要約: 本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
- 参考スコア(独自算出の注目度): 11.07539342949602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate text summarization is one of the most common and important tasks performed by Large Language Models, where the costs of human review for an entire document may be high, but the costs of errors in summarization may be even greater. We propose Detecting Errors through Ensembling Prompts (DEEP) - an end-to-end large language model framework for detecting factual errors in text summarization. Our framework uses a diverse set of LLM prompts to identify factual inconsistencies, treating their outputs as binary features, which are then fed into ensembling models. We then calibrate the ensembled models to produce empirically accurate probabilities that a text is factually consistent or free of hallucination. We demonstrate that prior models for detecting factual errors in summaries perform significantly worse without optimizing the thresholds on subsets of the evaluated dataset. Our framework achieves state-of-the-art (SOTA) balanced accuracy on the AggreFact-XSUM FTSOTA, TofuEval Summary-Level, and HaluEval Summarization benchmarks in detecting factual errors within transformer-generated text summaries. It does so without any fine-tuning of the language model or reliance on thresholding techniques not available in practical settings.
- Abstract(参考訳): 正確なテキスト要約は、大規模言語モデルによって実行される最も一般的かつ重要なタスクの1つであり、文書全体の人間によるレビューのコストは高いかもしれないが、要約のエラーのコストはさらに大きいかもしれない。
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドの大規模言語モデルフレームワークであるEnsembling Prompts (DEEP) による誤り検出を提案する。
我々のフレームワークは、多種多様なLCMプロンプトを使用して、事実の不整合を識別し、それらの出力をバイナリ機能として扱い、それをアンサンブルモデルに入力する。
次に、アンサンブルされたモデルを校正して、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
評価されたデータセットのサブセットのしきい値を最適化することなく、要約における事実誤りを検出する先行モデルが著しく悪化することを示した。
AggreFact-XSUM FTSOTA, TofuEval Summary-Level, HaluEval Summarizationベンチマークを用いて, トランスフォーマー生成したテキスト要約中の事実誤りを検出する。
言語モデルの微調整や、実践的な設定では利用できないしきい値設定技術への依存は不要である。
関連論文リスト
- Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - CONFIT: Toward Faithful Dialogue Summarization with
Linguistically-Informed Contrastive Fine-tuning [5.389540975316299]
生成された要約における現実的な矛盾は、抽象的な対話要約の実践的応用を著しく制限する。
本稿では,エラーのタイプを強調し,事実性に対する二項的理解から遠ざかるために,アノテーションデータを用いた事実的エラーのタイプ分析を行う。
本稿では,ConFiTと呼ばれる新しいコントラスト微調整手法により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。