論文の概要: CiteEval: Principle-Driven Citation Evaluation for Source Attribution
- arxiv url: http://arxiv.org/abs/2506.01829v1
- Date: Mon, 02 Jun 2025 16:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.60403
- Title: CiteEval: Principle-Driven Citation Evaluation for Source Attribution
- Title(参考訳): CiteEval: ソース属性に対する原則駆動型評価
- Authors: Yumo Xu, Peng Qi, Jifan Chen, Kunlun Liu, Rujun Han, Lan Liu, Bonan Min, Vittorio Castelli, Arshit Gupta, Zhiguo Wang,
- Abstract要約: CiteEvalは、きめ細かい引用評価に焦点を当てた、引用評価フレームワークである。
CiteBenchは、引用品質に関する高品質なヒューマンアノテーションを備えたベンチマークである。
CiteEval-Autoは、人間の判断と強い相関を示すモデルベースのメトリクスのスイートである。
- 参考スコア(独自算出の注目度): 38.24323805177938
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Citation quality is crucial in information-seeking systems, directly influencing trust and the effectiveness of information access. Current evaluation frameworks, both human and automatic, mainly rely on Natural Language Inference (NLI) to assess binary or ternary supportiveness from cited sources, which we argue is a suboptimal proxy for citation evaluation. In this work we introduce CiteEval, a citation evaluation framework driven by principles focusing on fine-grained citation assessment within a broad context, encompassing not only the cited sources but the full retrieval context, user query, and generated text. Guided by the proposed framework, we construct CiteBench, a multi-domain benchmark with high-quality human annotations on citation quality. To enable efficient evaluation, we further develop CiteEval-Auto, a suite of model-based metrics that exhibit strong correlation with human judgments. Experiments across diverse systems demonstrate CiteEval-Auto's superior ability to capture the multifaceted nature of citations compared to existing metrics, offering a principled and scalable approach to evaluate and improve model-generated citations.
- Abstract(参考訳): 情報検索システムでは,信頼と情報アクセスの有効性に直接的な影響を及ぼすため,循環品質が重要となる。
現在の評価フレームワークは,主に自然言語推論(NLI, Natural Language Inference, NLI)に頼り,引用された情報源から二進的・三進的支持度を評価する。
CiteEvalは、引用されたソースだけでなく、完全な検索コンテキスト、ユーザクエリ、生成されたテキストを含む、広範囲なコンテキストにおけるきめ細かい引用評価に焦点を当てた、引用評価フレームワークである。
提案するフレームワークでガイドされたCiteBenchは,引用品質に関する高品質な人文アノテーションを備えたマルチベンチマークである。
CiteEval-Autoは、人間の判断と強い相関関係を示すモデルベースのメトリクスのスイートである。
さまざまなシステムを対象とした実験では、CiteEval-Autoが既存のメトリクスと比較して多面的な引用をキャプチャする優れた能力を示し、モデル生成の引用を評価し改善するための原則付きかつスケーラブルなアプローチを提供する。
関連論文リスト
- A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
論文 参考訳(メタデータ) (2024-08-22T13:44:31Z) - Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T15:57:24Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Learning Neural Textual Representations for Citation Recommendation [7.227232362460348]
サブモジュラースコアリング機能において,シームズとトリプルトネットワークを併用した文書(センテンス-BERT)の深部表現を用いた引用推薦手法を提案する。
我々の知る限りでは、これは引用推薦のタスクに対して、ディープ表現とサブモジュラー選択を組み合わせるための最初のアプローチである。
論文 参考訳(メタデータ) (2020-07-08T12:38:50Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - HybridCite: A Hybrid Model for Context-Aware Citation Recommendation [0.0]
我々は,埋め込み,トピックモデリング,情報検索技術に基づく引用推薦手法を開発した。
私たちは、私たちの知る限りでは初めて、最高のパフォーマンスのアルゴリズムを半遺伝的ハイブリッドレコメンデータシステムに組み合わせました。
評価の結果,埋め込みと情報検索を併用したハイブリッドモデルでは,個々のコンポーネントやアルゴリズムよりも大きなマージンで性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-02-15T16:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。