論文の概要: CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text
- arxiv url: http://arxiv.org/abs/2605.27700v1
- Date: Tue, 26 May 2026 21:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.529154
- Title: CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text
- Title(参考訳): CiteCheck: 科学的テキストによるLLM幻覚の検索
- Authors: Khashayar Khajavi, Shaghayegh Sadeghi, Rise Adhikari, Alexander Tessier,
- Abstract要約: 我々は、引用幻覚検出のためのフレームワークであるCiteCheckを紹介する。
CiteCheckは外部の学術文献から候補者の出版物を検索し、構造化LCM検証器を用いて抽出された候補と比較し、検証器のスコアをExact、Minor、Majorの3つのラベルにマップする。
ホールドアウトテストセットでは、CiteCheck は 88.7マクロF1 と 88.9% の精度を実現し、GPT、Claude、Gemini のベースラインを上回り、Web 検索や少数ショットの亜種を含む。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used to generate scientific reports, but they can produce references that appear plausible while containing corrupted metadata or pointing to papers that do not exist. We introduce CiteCheck, a hybrid framework for citation hallucination detection that verifies whether a citation corresponds to a real scholarly work and whether its metadata is faithful to that work. CiteCheck retrieves candidate publications from external scholarly sources, compares the citation against the retrieved candidate using a structured LLM verifier, and maps verifier scores into three labels: Exact, Minor, and Major. We also construct a 982-citation physics benchmark with controlled corruptions that capture both subtle metadata drift and fully fabricated references. On the held-out test set, CiteCheck achieves 88.7 macro-F1 and 88.9% accuracy, outperforming GPT, Claude, and Gemini baselines, including web-search and few-shot variants. These results show that reliable citation verification benefits from combining scholarly retrieval, structured LLM-based comparison, and calibrated decision rules.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的なレポートを生成するために使われることが多いが、腐敗したメタデータや存在しない論文を指さしながら、妥当に見える参照を生成することができる。
CiteCheckは、引用が実際の学術作品と一致しているか、そのメタデータがその作品に忠実であるかを検証する、引用幻覚検出のハイブリッドフレームワークである。
CiteCheckは外部の学術文献から候補者の出版物を検索し、構造化LCM検証器を用いて抽出された候補と比較し、検証器のスコアをExact、Minor、Majorの3つのラベルにマップする。
また、微妙なメタデータのドリフトと完全に生成された参照の両方をキャプチャする、制御された汚職を伴う982の励起物理ベンチマークを構築した。
ホールドアウトテストセットでは、CiteCheckは88.7マクロF1と88.9%の精度を達成し、GPT、Claude、Geminiのベースラインを上回り、Web検索や数発のバリエーションを含んでいる。
これらの結果から,学術的検索,構造化LCMによる比較,校正決定規則の併用による信頼性の高い引用検証のメリットが示唆された。
関連論文リスト
- Source or It Didn't Happen: A Multi-Agent Framework for Citation Hallucination Detection [30.352741291341843]
既存の検出器は2値の発見/未確定の決定に還元され、監査者へのフィールドレベルの信号はほとんど提供されない。
実, 可能性, および有能な引用にまたがる12のコード分類法を導入する。
CiteTracerはPDFとBibから引用を抽出し、ルックアップURL、学者コネクタ、Web検索を通じて証拠を取得する。
合成ベンチマークでは97.1%の精度に達し、クラスレベルのF1スコアはそれぞれ97.0、95.8、98.5のReal、Val、Halucinatedに到達し、吸収することなく現実世界の幻覚を作る。
論文 参考訳(メタデータ) (2026-05-09T00:53:24Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - Hallucinate or Memorize? The Two Sides of Probabilistic Learning in Large Language Models [0.0]
大規模言語モデル(LLM)は、自然言語理解からコード生成に至るまで、幅広いタスクにますます適用されてきた。
引用の推薦にも使われてきたが、現存しない論文の幻覚は依然として大きな問題である。
この研究は、LLMがレコードを正しく生成する能力は、基礎となる知識が生成されるか記憶されるかに依存すると仮定する。
論文 参考訳(メタデータ) (2025-11-12T01:29:12Z) - Hallucinations in Bibliographic Recommendation: Citation Frequency as a Proxy for Training Data Redundancy [0.0]
大型幻覚モデル (LLMs) は幅広いタスクに適用されてきている。
この研究は、LLMが情報を正しく生成する能力は、基礎となる知識が生成されるか記憶されるかに依存すると仮定する。
論文 参考訳(メタデータ) (2025-10-29T10:51:35Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。