Fugu-MT 論文翻訳(概要): A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation

論文の概要: A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation

arxiv url: http://arxiv.org/abs/2408.12398v1
Date: Thu, 22 Aug 2024 13:44:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 13:43:10.611736
Title: A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation
Title（参考訳）: サイテーション評価における信心度と人間の比較分析
Authors: Weijia Zhang, Mohammad Aliannejadi, Jiahuan Pei, Yifei Yuan, Jia-Hong Huang, Evangelos Kanoulas,
Abstract要約: 大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
参考スコア（独自算出の注目度）: 22.041561519672456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often generate content with unsupported or unverifiable content, known as "hallucinations." To address this, retrieval-augmented LLMs are employed to include citations in their content, grounding the content in verifiable sources. Despite such developments, manually assessing how well a citation supports the associated statement remains a major challenge. Previous studies tackle this challenge by leveraging faithfulness metrics to estimate citation support automatically. However, they limit this citation support estimation to a binary classification scenario, neglecting fine-grained citation support in practical scenarios. To investigate the effectiveness of faithfulness metrics in fine-grained scenarios, we propose a comparative evaluation framework that assesses the metric effectiveness in distinguishing citations between three-category support levels: full, partial, and no support. Our framework employs correlation analysis, classification evaluation, and retrieval evaluation to measure the alignment between metric scores and human judgments comprehensively. Our results indicate no single metric consistently excels across all evaluations, highlighting the complexity of accurately evaluating fine-grained support levels. Particularly, we find that the best-performing metrics struggle to distinguish partial support from full or no support. Based on these findings, we provide practical recommendations for developing more effective metrics.
Abstract（参考訳）: 大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。これを解決するために、検索拡張LDMを使用して、コンテンツに引用を含ませ、検証可能なソースにコンテンツを基盤とする。このような発展にもかかわらず、引用が関連するステートメントをどの程度うまくサポートしているかを手作業で評価することは、依然として大きな課題である。従来の研究では、信頼度指標を活用して引用支援を自動的に見積もっていた。しかし、彼らはこの引用支援推定を二項分類シナリオに制限し、実践シナリオにおけるきめ細かい引用支援を無視した。細粒度シナリオにおける忠実度指標の有効性を検討するため, 完全, 部分, サポートなしの3段階のサポートレベル間の引用を識別する上で, メトリクスの有効性を評価するための比較評価フレームワークを提案する。本フレームワークでは, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断とのアライメントを総合的に測定する。以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。特に、最高のパフォーマンスのメトリクスは、部分的なサポートと完全なサポートやサポートの欠如を区別するのに苦労しています。これらの知見に基づき、より効果的なメトリクスを開発するための実践的なレコメンデーションを提供する。

関連論文リスト

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文参考訳（メタデータ） (2026-02-26T19:17:39Z)
SemanticCite: Citation Verification with AI-Powered Full-Text Analysis and Evidence-Based Reasoning [0.0]
本稿では,全文ソース解析による引用精度の検証を行うAIシステムであるSemanticCiteを紹介する。提案手法は,複数の検索手法と,ニュアンスド・クレーム・ソース関係を抽出する4クラス分類システムを組み合わせたものである。我々は、詳細なアライメント、機能分類、セマンティックアノテーション、およびバイオロメトリメタデータを備えた1000以上の引用からなる包括的なデータセットをコントリビュートする。
論文参考訳（メタデータ） (2025-11-20T10:05:21Z)
Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文参考訳（メタデータ） (2025-06-19T00:01:43Z)
CiteEval: Principle-Driven Citation Evaluation for Source Attribution [38.24323805177938]
CiteEvalは、きめ細かい引用評価に焦点を当てた、引用評価フレームワークである。 CiteBenchは、引用品質に関する高品質なヒューマンアノテーションを備えたベンチマークである。 CiteEval-Autoは、人間の判断と強い相関を示すモデルベースのメトリクスのスイートである。
論文参考訳（メタデータ） (2025-06-02T16:15:34Z)
Benchmark for Evaluation and Analysis of Citation Recommendation Models [0.0]
我々は、引用推薦モデルの解析と比較を専門とするベンチマークを開発する。このベンチマークは、引用コンテキストの異なる特徴に基づいてモデルの性能を評価する。これは有意義な比較を可能にし、この分野におけるさらなる研究と開発のための有望なアプローチを特定するのに役立つだろう。
論文参考訳（メタデータ） (2024-12-10T18:01:33Z)
Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文参考訳（メタデータ） (2024-06-21T15:57:24Z)
ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文参考訳（メタデータ） (2024-06-19T09:16:14Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文参考訳（メタデータ） (2021-12-14T15:04:56Z)
A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文参考訳（メタデータ） (2021-06-26T05:11:27Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文参考訳（メタデータ） (2020-12-24T06:38:24Z)
Understanding the Extent to which Summarization Evaluation Metrics Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文参考訳（メタデータ） (2020-10-23T15:55:15Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)
SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文参考訳（メタデータ） (2020-05-13T15:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。