論文の概要: Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics
- arxiv url: http://arxiv.org/abs/2406.15264v1
- Date: Fri, 21 Jun 2024 15:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:03:22.965759
- Title: Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics
- Title(参考訳): 生成テキストの微粒化評価に向けて : 忠実度尺度の比較分析
- Authors: Weijia Zhang, Mohammad Aliannejadi, Yifei Yuan, Jiahuan Pei, Jia-Hong Huang, Evangelos Kanoulas,
- Abstract要約: 大型言語モデル (LLMs) は、しばしば「幻覚 (hallucinations)」として知られる、サポートされていない、または検証できない情報を生成する。
従来の研究では、信頼度測定を用いて引用支援を自動的に見積もっていたが、二分分類に限られていた。
本フレームワークは, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断の一致を計測する。
- 参考スコア(独自算出の注目度): 22.041561519672456
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) often produce unsupported or unverifiable information, known as "hallucinations." To mitigate this, retrieval-augmented LLMs incorporate citations, grounding the content in verifiable sources. Despite such developments, manually assessing how well a citation supports the associated statement remains a major challenge. Previous studies use faithfulness metrics to estimate citation support automatically but are limited to binary classification, overlooking fine-grained citation support in practical scenarios. To investigate the effectiveness of faithfulness metrics in fine-grained scenarios, we propose a comparative evaluation framework that assesses the metric effectiveness in distinguishinging citations between three-category support levels: full, partial, and no support. Our framework employs correlation analysis, classification evaluation, and retrieval evaluation to measure the alignment between metric scores and human judgments comprehensively. Our results show no single metric consistently excels across all evaluations, revealing the complexity of assessing fine-grained support. Based on the findings, we provide practical recommendations for developing more effective metrics.
- Abstract(参考訳): 大型言語モデル (LLMs) は、しばしば「幻覚 (hallucinations)」として知られる、サポートされていない、または検証できない情報を生成する。
これを軽減するために、検索拡張LDMは引用を取り入れ、検証可能なソースにその内容を埋め込む。
このような発展にもかかわらず、引用が関連するステートメントをどの程度うまくサポートしているかを手作業で評価することは、依然として大きな課題である。
従来の研究では、信頼度測定を用いて、引用支援を自動的に見積もっているが、現実的なシナリオにおいて、きめ細かい引用支援を見越して二分分類に限られている。
細粒度シナリオにおける忠実度指標の有効性を検討するため, 完全, 部分, サポートなしの3段階のサポートレベル間での引用を識別する上で, メトリクスの有効性を評価するための比較評価フレームワークを提案する。
本研究では, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断のアライメントを総合的に測定する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
この結果をもとに,より効果的なメトリクスを開発するための実践的なレコメンデーションを提供する。
関連論文リスト
- A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
論文 参考訳(メタデータ) (2024-08-22T13:44:31Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。