Fugu-MT 論文翻訳(概要): CiteEval: Principle-Driven Citation Evaluation for Source Attribution

論文の概要: CiteEval: Principle-Driven Citation Evaluation for Source Attribution

arxiv url: http://arxiv.org/abs/2506.01829v1
Date: Mon, 02 Jun 2025 16:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.60403
Title: CiteEval: Principle-Driven Citation Evaluation for Source Attribution
Title（参考訳）: CiteEval: ソース属性に対する原則駆動型評価
Authors: Yumo Xu, Peng Qi, Jifan Chen, Kunlun Liu, Rujun Han, Lan Liu, Bonan Min, Vittorio Castelli, Arshit Gupta, Zhiguo Wang,
Abstract要約: CiteEvalは、きめ細かい引用評価に焦点を当てた、引用評価フレームワークである。 CiteBenchは、引用品質に関する高品質なヒューマンアノテーションを備えたベンチマークである。 CiteEval-Autoは、人間の判断と強い相関を示すモデルベースのメトリクスのスイートである。
参考スコア（独自算出の注目度）: 38.24323805177938
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Citation quality is crucial in information-seeking systems, directly influencing trust and the effectiveness of information access. Current evaluation frameworks, both human and automatic, mainly rely on Natural Language Inference (NLI) to assess binary or ternary supportiveness from cited sources, which we argue is a suboptimal proxy for citation evaluation. In this work we introduce CiteEval, a citation evaluation framework driven by principles focusing on fine-grained citation assessment within a broad context, encompassing not only the cited sources but the full retrieval context, user query, and generated text. Guided by the proposed framework, we construct CiteBench, a multi-domain benchmark with high-quality human annotations on citation quality. To enable efficient evaluation, we further develop CiteEval-Auto, a suite of model-based metrics that exhibit strong correlation with human judgments. Experiments across diverse systems demonstrate CiteEval-Auto's superior ability to capture the multifaceted nature of citations compared to existing metrics, offering a principled and scalable approach to evaluate and improve model-generated citations.
Abstract（参考訳）: 情報検索システムでは,信頼と情報アクセスの有効性に直接的な影響を及ぼすため,循環品質が重要となる。現在の評価フレームワークは,主に自然言語推論(NLI, Natural Language Inference, NLI)に頼り,引用された情報源から二進的・三進的支持度を評価する。 CiteEvalは、引用されたソースだけでなく、完全な検索コンテキスト、ユーザクエリ、生成されたテキストを含む、広範囲なコンテキストにおけるきめ細かい引用評価に焦点を当てた、引用評価フレームワークである。提案するフレームワークでガイドされたCiteBenchは,引用品質に関する高品質な人文アノテーションを備えたマルチベンチマークである。 CiteEval-Autoは、人間の判断と強い相関関係を示すモデルベースのメトリクスのスイートである。さまざまなシステムを対象とした実験では、CiteEval-Autoが既存のメトリクスと比較して多面的な引用をキャプチャする優れた能力を示し、モデル生成の引用を評価し改善するための原則付きかつスケーラブルなアプローチを提供する。

関連論文リスト

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文参考訳（メタデータ） (2026-02-26T19:17:39Z)
SemanticCite: Citation Verification with AI-Powered Full-Text Analysis and Evidence-Based Reasoning [0.0]
本稿では,全文ソース解析による引用精度の検証を行うAIシステムであるSemanticCiteを紹介する。提案手法は,複数の検索手法と,ニュアンスド・クレーム・ソース関係を抽出する4クラス分類システムを組み合わせたものである。我々は、詳細なアライメント、機能分類、セマンティックアノテーション、およびバイオロメトリメタデータを備えた1000以上の引用からなる包括的なデータセットをコントリビュートする。
論文参考訳（メタデータ） (2025-11-20T10:05:21Z)
Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution [8.691344810384114]
大規模言語モデル (LLMs) は、医療、法律、アカデミア、金融といった高度な領域において、人間の検証可能な情報源を引用しなければならない。本稿では,一つのパスで応答と引用を生成する生成時間Citation(G-Cite)と,起草後の引用を付加または検証するポストホックCitation(P-Cite)という2つのパラダイムを紹介する。両パラダイムにおける帰属品質の主要因は検索であり,適用範囲と引用精度の相反するトレードオフを示した。
論文参考訳（メタデータ） (2025-09-25T20:39:26Z)
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。 SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文参考訳（メタデータ） (2025-02-13T18:55:13Z)
A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
論文参考訳（メタデータ） (2024-08-22T13:44:31Z)
Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文参考訳（メタデータ） (2024-06-21T15:57:24Z)
ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文参考訳（メタデータ） (2024-06-19T09:16:14Z)
ElicitationGPT: Text Elicitation Mechanisms via Language Models [12.945581341789431]
本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
論文参考訳（メタデータ） (2024-06-13T17:49:10Z)
SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。 SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文参考訳（メタデータ） (2023-09-29T18:25:46Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
Learning Neural Textual Representations for Citation Recommendation [7.227232362460348]
サブモジュラースコアリング機能において,シームズとトリプルトネットワークを併用した文書(センテンス-BERT)の深部表現を用いた引用推薦手法を提案する。我々の知る限りでは、これは引用推薦のタスクに対して、ディープ表現とサブモジュラー選択を組み合わせるための最初のアプローチである。
論文参考訳（メタデータ） (2020-07-08T12:38:50Z)
Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。音声テキストと関連するニュース記事の収集実験を行う。
論文参考訳（メタデータ） (2020-05-17T17:49:53Z)
HybridCite: A Hybrid Model for Context-Aware Citation Recommendation [0.0]
我々は,埋め込み,トピックモデリング,情報検索技術に基づく引用推薦手法を開発した。私たちは、私たちの知る限りでは初めて、最高のパフォーマンスのアルゴリズムを半遺伝的ハイブリッドレコメンデータシステムに組み合わせました。評価の結果,埋め込みと情報検索を併用したハイブリッドモデルでは,個々のコンポーネントやアルゴリズムよりも大きなマージンで性能が向上することがわかった。
論文参考訳（メタデータ） (2020-02-15T16:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。