論文の概要: GhostCite: A Large-Scale Analysis of Citation Validity in the Age of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06718v1
- Date: Fri, 06 Feb 2026 14:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.42114
- Title: GhostCite: A Large-Scale Analysis of Citation Validity in the Age of Large Language Models
- Title(参考訳): GhostCite: 大規模言語モデルの時代におけるCitation Validityの大規模分析
- Authors: Zuyao Xu, Yuqi Qiu, Lu Sun, FaSheng Miao, Fubin Wu, Xinyi Wang, Xiang Li, Haozhe Lu, ZhengZe Zhang, Yuxin Hu, Jialu Li, Jin Luo, Feng Zhang, Rui Luo, Xinran Liu, Yingxian Li, Jiaji Liu,
- Abstract要約: キュテーションは科学的主張を信頼する基盤を提供するが、それらが無効または製造された場合、この信頼は崩壊する。
LLM(Large Language Models)の出現により、このリスクは増大した。
我々は大規模な引用検証のためのオープンソースのフレームワークであるCiteVerifierを開発した。
- 参考スコア(独自算出の注目度): 22.147294042024836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Citations provide the basis for trusting scientific claims; when they are invalid or fabricated, this trust collapses. With the advent of Large Language Models (LLMs), this risk has intensified: LLMs are increasingly used for academic writing, yet their tendency to fabricate citations (``ghost citations'') poses a systemic threat to citation validity. To quantify this threat and inform mitigation, we develop CiteVerifier, an open-source framework for large-scale citation verification, and conduct the first comprehensive study of citation validity in the LLM era through three experiments built on it. We benchmark 13 state-of-the-art LLMs on citation generation across 40 research domains, finding that all models hallucinate citations at rates from 14.23\% to 94.93\%, with significant variation across research domains. Moreover, we analyze 2.2 million citations from 56,381 papers published at top-tier AI/ML and Security venues (2020--2025), confirming that 1.07\% of papers contain invalid or fabricated citations (604 papers), with an 80.9\% increase in 2025 alone. Furthermore, we survey 97 researchers and analyze 94 valid responses after removing 3 conflicting samples, revealing a critical ``verification gap'': 41.5\% of researchers copy-paste BibTeX without checking and 44.4\% choose no-action responses when encountering suspicious references; meanwhile, 76.7\% of reviewers do not thoroughly check references and 80.0\% never suspect fake citations. Our findings reveal an accelerating crisis where unreliable AI tools, combined with inadequate human verification by researchers and insufficient peer review scrutiny, enable fabricated citations to contaminate the scientific record. We propose interventions for researchers, venues, and tool developers to protect citation integrity.
- Abstract(参考訳): キュテーションは科学的主張を信頼する基盤を提供するが、それらが無効または製造された場合、この信頼は崩壊する。
大規模言語モデル(LLMs)の出現に伴い、このリスクは激化している: LLMは学術的執筆にますます使われるようになったが、それらが引用("ghost citations'')を作る傾向は、引用の正当性を体系的に脅かす。
この脅威の定量化と軽減を図り,大規模引用検証のためのオープンソースのフレームワークであるCiteVerifierを開発し,その上に構築された3つの実験により,LLM時代の引用妥当性の総合的研究を行った。
我々は、40の研究領域にわたる引用生成に関する13の最先端のLCMをベンチマークし、すべてのモデルが14.23\%から94.93\%の速度で引用を幻覚することを発見した。
さらに、トップレベルのAI/ML and Securityの会場(2020年-2025年)で発行された56,381件の論文から2200万件の引用を分析し、1.07 %の論文が不正または偽造された引用(604件)を含んでおり、2025年だけで80.9 %増加していることを確認した。
さらに、97人の研究者を対象に、対立する3つのサンプルを除去し、94人の有効な回答を分析し、重要な「検証ギャップ」を明らかにした。41.5\%の研究者が、不審な参照に遭遇した場合に44.4\%が非アクション応答を選択し、76.7\%が参照を徹底的にチェックせず、80.0\%が偽の引用を疑わない。
我々の発見は、信頼性の低いAIツールと、研究者による不十分な人間の検証と不十分なピアレビューの精査を組み合わせることで、製造された引用が科学記録を汚染する、加速的な危機を明らかにした。
我々は, 研究者, 会場, ツール開発者に対して, 引用整合性を保護するための介入を提案する。
関連論文リスト
- Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025 [0.0]
大規模言語モデル (LLM) は学術的著作においてますます使われてきているが、それらが存在しない情報源への引用を生成することで、しばしば幻覚を引き起こす。
本研究は,2025年ニューラル情報処理システム学会が受理した論文に現れる100個のAI生成幻覚励起を解析する。
1紙あたり3-5人の専門家によるレビューにもかかわらず、これらの引用は検出を回避し、53の論文に現れた。
論文 参考訳(メタデータ) (2026-02-05T17:43:35Z) - The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers [0.0]
『廃紙』は既知の人工物であるが、有効な引用鎖の系統的な劣化はいまだに不明である。
我々は,2024年9月から2026年1月までに発行された人工知能に関する50の最近の調査論文の法医学的な監査を行った。
我々は、攻撃的な法医学的回復にもかかわらず、いかなるデジタルオブジェクトにも解決できない、永続的な17.0%のファントムレートを検出する。
論文 参考訳(メタデータ) (2026-01-24T12:00:55Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research [20.649638393774048]
本稿では,大規模な引用忠実度を定量化する計算パイプラインを提案する。
論文の全文を用いて、パイプラインは引用論文における引用と引用論文における対応するクレームを識別する。
準実験を用いて「電話効果」を確立する - 引用論文が原主張に忠実度が低い場合、引用論文と原文を引用する将来の論文は原文に忠実度が低い。
論文 参考訳(メタデータ) (2025-02-27T22:47:03Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - Position: AI/ML Influencers Have a Place in the Academic Process [82.2069685579588]
機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。
2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。
我々の統計的および因果推論分析は、これらのインフルエンサーが支持する論文の引用が著しく増加することを示している。
論文 参考訳(メタデータ) (2024-01-24T20:05:49Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。