論文の概要: CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era
- arxiv url: http://arxiv.org/abs/2602.23452v1
- Date: Thu, 26 Feb 2026 19:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.105897
- Title: CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era
- Title(参考訳): CiteAudit:楽しんだけど読んだ? LLM時代の科学的基準を検証するためのベンチマーク
- Authors: Zhengqing Yuan, Kaiwen Shi, Zheyuan Zhang, Lichao Sun, Nitesh V. Chawla, Yanfang Ye,
- Abstract要約: 大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 51.63024682584688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific research relies on accurate citation for attribution and integrity, yet large language models (LLMs) introduce a new risk: fabricated references that appear plausible but correspond to no real publications. Such hallucinated citations have already been observed in submissions and accepted papers at major machine learning venues, exposing vulnerabilities in peer review. Meanwhile, rapidly growing reference lists make manual verification impractical, and existing automated tools remain fragile to noisy and heterogeneous citation formats and lack standardized evaluation. We present the first comprehensive benchmark and detection framework for hallucinated citations in scientific writing. Our multi-agent verification pipeline decomposes citation checking into claim extraction, evidence retrieval, passage matching, reasoning, and calibrated judgment to assess whether a cited source truly supports its claim. We construct a large-scale human-validated dataset across domains and define unified metrics for citation faithfulness and evidence alignment. Experiments with state-of-the-art LLMs reveal substantial citation errors and show that our framework significantly outperforms prior methods in both accuracy and interpretability. This work provides the first scalable infrastructure for auditing citations in the LLM era and practical tools to improve the trustworthiness of scientific references.
- Abstract(参考訳): 科学的研究は、帰属と完全性のために正確な引用に依存するが、大きな言語モデル(LLM)は新たなリスクをもたらす。
このような幻覚的な引用は、論文にすでに見られ、主要な機械学習会場で論文を受理し、ピアレビューの脆弱性を暴露している。
一方、急速に増加する参照リストは手動による検証を非現実的にし、既存の自動化ツールはノイズや異質な引用形式に弱いままであり、標準化された評価を欠いている。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のマルチエージェント検証パイプラインは、クレーム抽出、エビデンス検索、パスマッチング、推論、校正判定に引用チェックを分解して、引用元がそのクレームを真にサポートしているかどうかを評価する。
我々は、ドメイン全体にわたる大規模な人間検証データセットを構築し、引用忠実度とエビデンスアライメントのための統一されたメトリクスを定義する。
現状のLCMによる実験では、かなりの励磁誤差が示され、我々のフレームワークは、精度と解釈可能性の両方において、従来の手法よりも大幅に優れていた。
この研究は、LLM時代の引用を監査するための最初のスケーラブルなインフラと、科学的参照の信頼性を改善するための実践的なツールを提供する。
関連論文リスト
- Multi-Sourced, Multi-Agent Evidence Retrieval for Fact-Checking [47.47518672198846]
インターネット上に拡散する誤報は、社会と個人の両方に重大な脅威をもたらす。
これまでの方法は、トレーニングデータから学んだ意味的パターンと社会的コンテキスト的パターンに依存していた。
我々は、証拠のコアリソースとして認証されたオープンナレッジグラフを利用するWKGFCを提案する。
論文 参考訳(メタデータ) (2026-02-27T19:29:01Z) - BibAgent: An Agentic Framework for Traceable Miscitation Detection in Scientific Literature [21.872874595027824]
BibAgentは、自動引用検証のためのスケーラブルでエンドツーエンドのエージェントフレームワークである。
検索、推論、アダプティブ・エビデンス・アグリゲーションを統合し、アクセス可能で有料のソースに戦略を適用する。
以上の結果から,BibAgentは引用精度と解釈可能性において,最先端のLarge Language Model(LLM)のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-01-12T16:30:45Z) - SemanticCite: Citation Verification with AI-Powered Full-Text Analysis and Evidence-Based Reasoning [0.0]
本稿では,全文ソース解析による引用精度の検証を行うAIシステムであるSemanticCiteを紹介する。
提案手法は,複数の検索手法と,ニュアンスド・クレーム・ソース関係を抽出する4クラス分類システムを組み合わせたものである。
我々は、詳細なアライメント、機能分類、セマンティックアノテーション、およびバイオロメトリメタデータを備えた1000以上の引用からなる包括的なデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2025-11-20T10:05:21Z) - Citation Failure: Definition, Analysis and Efficient Mitigation [56.09968229868067]
LLMベースのRAGシステムからの引用は、応答検証の簡略化を目的としている。
これは、モデルが有効な応答を生成するとき、引用失敗には当てはまらないが、完全な証拠を引用することができない。
応答自体に欠陥があり、完全な証拠を引用することは不可能である。
論文 参考訳(メタデータ) (2025-10-23T07:47:22Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research [20.649638393774048]
本稿では,大規模な引用忠実度を定量化する計算パイプラインを提案する。
論文の全文を用いて、パイプラインは引用論文における引用と引用論文における対応するクレームを識別する。
準実験を用いて「電話効果」を確立する - 引用論文が原主張に忠実度が低い場合、引用論文と原文を引用する将来の論文は原文に忠実度が低い。
論文 参考訳(メタデータ) (2025-02-27T22:47:03Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。