Fugu-MT 論文翻訳(概要): LLM hallucinations in the wild: Large-scale evidence from non-existent citations

論文の概要: LLM hallucinations in the wild: Large-scale evidence from non-existent citations

arxiv url: http://arxiv.org/abs/2605.07723v1
Date: Fri, 08 May 2026 13:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.070674
Title: LLM hallucinations in the wild: Large-scale evidence from non-existent citations
Title（参考訳）: 野生におけるLLM幻覚 : 非存在的引用による大規模証拠
Authors: Zhenyue Zhao, Yihe Wang, Toby Stuart, Mathijs De Vaan, Paul Ginsparg, Yian Yin,
Abstract要約: arXiv、bioRxiv、SSRN、PubMed Centralの250万の論文の1100万件の参照を監査します。大規模な言語モデルの採用が広まると、既存の参照が大幅に増加します。これらのエラーは多くの論文に拡散的に埋め込まれているが、特にAIが急速に普及する分野では顕著である。
参考スコア（独自算出の注目度）: 5.051133029117994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are known to generate plausible but false information across a wide range of contexts, yet the real-world magnitude and consequences of this hallucination problem remain poorly understood. Here we leverage a uniquely verifiable object - scientific citations - to audit 111 million references across 2.5 million papers in arXiv, bioRxiv, SSRN, and PubMed Central. We find a sharp rise in non-existent references following widespread LLM adoption, with a conservative estimate of 146,932 hallucinated citations in 2025 alone. These errors are diffusely embedded across many papers but especially pronounced in fields with rapid AI uptake, in manuscripts with linguistic signatures of AI-assisted writing, and among small and early-career author teams. At the same time, hallucinated references disproportionately assign credit to already prominent and male scholars, suggesting that LLM-generated errors may reinforce existing inequities in scientific recognition. Preprint moderation and journal publication processes capture only a fraction of these errors, suggesting that the spread of hallucinated content has outpaced existing safeguards. Together, these findings demonstrate that LLM hallucinations are infiltrating knowledge production at scale, threatening both the reliability and equity of future scientific discovery as human and AI systems draw on the existing literature.
Abstract（参考訳）: 大規模言語モデル (LLM) は、様々な文脈において、もっともらしいが偽の情報を生成することが知られているが、この幻覚問題の実際の大きさと結果はまだよく分かっていない。ここでは、ArXiv、bioRxiv、SSRN、PubMed Centralの250万件の論文に1100万件の参照を監査するために、ユニークな検証可能なオブジェクト(科学的引用)を活用します。 2025年だけで146,932個の幻覚励起を保存的に推定した。これらの誤りは多くの論文に散在しているが、特に急激なAI取り込みの分野、AI支援書記の言語署名の原稿、小規模で早期の著者チームの間では顕著である。同時に、幻覚された参考文献は、既に著名な学者や男性学者に信用を不均等に割り当て、LCMが生成した誤りは、科学的認識における既存の不平等を補強する可能性があることを示唆している。プレプリントのモデレーションとジャーナルの出版プロセスは、これらの誤りのごく一部しか捉えておらず、幻覚コンテンツの普及が既存の安全を上回りつつあることを示唆している。これらの知見は,LLM幻覚が大規模に知識生産に浸透していることを示し,人間とAIシステムが既存の文献に反映する未来の科学的発見の信頼性とエクイティの両方を脅かしている。

関連論文リスト

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文参考訳（メタデータ） (2026-02-26T19:17:39Z)
The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers [0.0]
『廃紙』は既知の人工物であるが、有効な引用鎖の系統的な劣化はいまだに不明である。我々は,2024年9月から2026年1月までに発行された人工知能に関する50の最近の調査論文の法医学的な監査を行った。我々は、攻撃的な法医学的回復にもかかわらず、いかなるデジタルオブジェクトにも解決できない、永続的な17.0%のファントムレートを検出する。
論文参考訳（メタデータ） (2026-01-24T12:00:55Z)
Hallucinate or Memorize? The Two Sides of Probabilistic Learning in Large Language Models [0.0]
大規模言語モデル(LLM)は、自然言語理解からコード生成に至るまで、幅広いタスクにますます適用されてきた。引用の推薦にも使われてきたが、現存しない論文の幻覚は依然として大きな問題である。この研究は、LLMがレコードを正しく生成する能力は、基礎となる知識が生成されるか記憶されるかに依存すると仮定する。
論文参考訳（メタデータ） (2025-11-12T01:29:12Z)
Confabulations from ACL Publications (CAP): A Dataset for Scientific Hallucination Detection [8.258841312112986]
CAPデータセットは、科学テキスト生成における大規模言語モデル(LLM)の幻覚を研究するための多言語リソースである。このデータセットは、900のキュレートされた科学的な質問と、公開可能な16のモデルから7000以上のLSM生成された回答で構成されている。
論文参考訳（メタデータ） (2025-10-25T18:42:22Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Delving into LLM-assisted writing in biomedical publications through excess vocabulary [4.58733012283457]
ChatGPTのような大きな言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成し、修正することができる。 PubMedによる2010年から2024年にかけての1500万以上のバイオメディカル・抽象化の語彙変化について検討した。バイオメディカル研究におけるLCMは,コビッドパンデミックなどの世界大イベントの影響を超越し,科学的な執筆に前例のない影響を与えていることを示す。
論文参考訳（メタデータ） (2024-06-11T07:16:34Z)
Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文参考訳（メタデータ） (2023-11-14T12:30:28Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [124.90671698586249]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。