論文の概要: Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes
- arxiv url: http://arxiv.org/abs/2603.07287v1
- Date: Sat, 07 Mar 2026 17:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.20693
- Title: Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes
- Title(参考訳): 展開制限はLLMを幻覚させるか : 4つのモデルと5つのプロンプティング・レジームの実証的研究
- Authors: Chen Zhao, Yuan Tang, Yitian Qian,
- Abstract要約: クローズド・ブック・セッティングにおいて,配置動機による制約が引用の妥当性にどのように影響するかを検討する。
17,443個の励起が生成され、0.475の励起レベルを超えるモデルはない。
- 参考スコア(独自算出の注目度): 16.12060986892916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used to draft academic text and to support software engineering (SE) evidence synthesis, but they often hallucinate bibliographic references that look legitimate. We study how deployment-motivated prompting constraints affect citation verifiability in a closed-book setting. Using 144 claims (24 in SE&CS) and a deterministic verification pipeline (Crossref + Semantic Scholar), we evaluate two proprietary models (Claude Sonnet, GPT-4o) and two open-weight models (LLaMA~3.1-8B, Qwen~2.5-14B) across five regimes: Baseline, Temporal (publication-year window), Survey-style breadth, Non-Disclosure policy, and their combination. Across 17,443 generated citations, no model exceeds a citation-level existence rate of 0.475; Temporal and Combo conditions produce the steepest drops while outputs remain format-compliant (well-formed bibliographic fields). Unresolved outcomes dominate (36-61%); a 100-citation audit indicates that a substantial fraction of Unresolved cases are fabricated. Results motivate post-hoc citation verification before LLM outputs enter SE literature reviews or tooling pipelines.
- Abstract(参考訳): LLMは、学術テキストの起草や、ソフトウェア工学(SE)エビデンス合成を支援するために使われることが多いが、しばしば正当に見える文献参照を幻覚させる。
本論文では,配備動機による制約が,クローズドブック設定における引用検証可能性にどのように影響するかを考察する。
144のクレーム(SE&CSでは24)と決定論的検証パイプライン(Crossref + Semantic Scholar)を用いて、2つのプロプライエタリモデル(Claude Sonnet, GPT-4o)と2つのオープンウェイトモデル(LLaMA~3.1-8B, Qwen~2.5-14B)をベースライン、テンポラル(公開年窓)、サーベイスタイルの幅、非開示ポリシー、それらの組み合わせで評価する。
17,443個の生成した引用は0.475の引用レベルの存在率を超えず、テンポラル条件とコンボ条件は最も急降下し、出力はフォーマットに準拠する(十分に形式化された書誌分野)。
未解決結果(36-61%)が支配的であり、100回の引用監査では未解決事例のかなりの割合が製造されていることを示している。
LLM出力がSE文学レビューやツーリングパイプラインに入る前に、結果はホット後の引用検証を動機付けます。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations [1.0829694003408499]
大規模言語モデル(LLM)は、学術的な引用を作るために注目されているが、この振る舞いの範囲はいまだに定量化されていない。
これまでに,4つの学術領域に10のLLMを商業展開させた,最も大きな幻覚誘発検査の1つを報告した。
以上の結果から,観察された幻覚率は5倍の範囲(11.4%から56.8%)で,モデル,ドメイン,迅速なフレーミングによって強く形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-07T00:14:00Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。
SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。