論文の概要: Metric Ensembles For Hallucination Detection
- arxiv url: http://arxiv.org/abs/2310.10495v1
- Date: Mon, 16 Oct 2023 15:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:22:58.969108
- Title: Metric Ensembles For Hallucination Detection
- Title(参考訳): 幻覚検出のためのメトリクスアンサンブル
- Authors: Grant C. Forbes, Parth Katlana, Zeydy Ortiz
- Abstract要約: 抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。
要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive text summarization has garnered increased interest as of late, in
part due to the proliferation of large language models (LLMs). One of the most
pressing problems related to generation of abstractive summaries is the need to
reduce "hallucinations," information that was not included in the document
being summarized, and which may be wholly incorrect. Due to this need, a wide
array of metrics estimating consistency with the text being summarized have
been proposed. We examine in particular a suite of unsupervised metrics for
summary consistency, and measure their correlations with each other and with
human evaluation scores in the wiki_bio_gpt3_hallucination dataset. We then
compare these evaluations to models made from a simple linear ensemble of these
metrics. We find that LLM-based methods outperform other unsupervised metrics
for hallucination detection. We also find that ensemble methods can improve
these scores even further, provided that the metrics in the ensemble have
sufficiently similar and uncorrelated error rates. Finally, we present an
ensemble method for LLM-based evaluations that we show improves over this
previous SOTA.
- Abstract(参考訳): 抽象的なテキスト要約は、部分的には大きな言語モデル(LLM)の増大により、最近、関心が高まっている。
抽象要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要性であり、文書に含まれていない情報であり、完全に正しくない可能性がある。
この要求により、要約されるテキストとの整合性を推定する幅広いメトリクスが提案されている。
具体的には,wiki_bio_gpt3_hallucinationデータセットにおいて,要約整合性のための教師なしメトリクスの組を調査し,それらの相関度と人的評価スコアを測定した。
次に、これらの評価をこれらの指標の単純な線形アンサンブルから得られたモデルと比較する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
また,アンサンブル手法は,アンサンブル内の指標が十分に類似し,非相関な誤差率を持つ場合,これらのスコアをさらに改善できることがわかった。
最後に,従来のSOTAよりも改善したLCMに基づく評価のためのアンサンブル手法を提案する。
関連論文リスト
- FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。