論文の概要: BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation
- arxiv url: http://arxiv.org/abs/2604.03159v1
- Date: Fri, 03 Apr 2026 16:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.535282
- Title: BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation
- Title(参考訳): BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation
- Authors: Delip Rao, Chris Callison-Burch,
- Abstract要約: 以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
- 参考スコア(独自算出の注目度): 34.429649156970015
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models with web search are increasingly used in scientific publishing agents, yet they still produce BibTeX entries with pervasive field-level errors. Prior evaluations tested base models without search, which does not reflect current practice. We construct a benchmark of 931 papers across four scientific domains and three citation tiers -- popular, low-citation, and recent post-cutoff -- designed to disentangle parametric memory from search dependence, with version-aware ground truth accounting for multiple citable versions of the same paper. Three search-enabled frontier models (GPT-5, Claude Sonnet-4.6, Gemini-3 Flash) generate BibTeX entries scored on nine fields and a six-way error taxonomy, producing ~23,000 field-level observations. Overall accuracy is 83.6%, but only 50.9% of entries are fully correct; accuracy drops 27.7pp from popular to recent papers, revealing heavy reliance on parametric memory even when search is available. Field-error co-occurrence analysis identifies two failure modes: wholesale entry substitution (identity fields fail together) and isolated field error. We evaluate clibib, an open-source tool for deterministic BibTeX retrieval from the Zotero Translation Server with CrossRef fallback, as a mitigation mechanism. In a two-stage integration where baseline entries are revised against authoritative records, accuracy rises +8.0pp to 91.5%, fully correct entries rise from 50.9% to 78.3%, and regression rate is only 0.8%. An ablation comparing single-stage and two-stage integration shows that separating search from revision yields larger gains and lower regression (0.8% vs. 4.8%), demonstrating that integration architecture matters independently of model capability. We release the benchmark, error taxonomy, and clibib tool to support evaluation and mitigation of citation hallucinations in LLM-based scientific writing.
- Abstract(参考訳): Web検索を備えた大規模言語モデルは、科学出版エージェントでの利用が増えているが、それでも広範にフィールドレベルのエラーを発生させたBibTeXエントリを生成している。
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
我々は,4つの科学的領域と3つの引用レベル – 人気,低引用,最近のポストカット – にまたがる931の論文のベンチマークを構築した。
3つの検索可能なフロンティアモデル(GPT-5、Claude Sonnet-4.6、Gemini-3 Flash)は、9つのフィールドと6方向のエラー分類に基づいてBibTeXエントリを生成し、23,000のフィールドレベルの観測を生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎず、一般的な論文から最近の論文まで27.7ppの精度が低下し、検索可能であってもパラメトリックメモリに大きく依存していることが判明した。
フィールドエラーの共起分析では、ホールサールエントリ置換(アイデンティティフィールドが一緒に失敗)と分離されたフィールドエラーの2つの障害モードが特定される。
我々は、CrossRefフォールバックを用いたZotero Translation ServerからBibTeXを検索するためのオープンソースのツールであるclibibを緩和機構として評価した。
2段階の統合では、ベースラインエントリが権威的な記録に対して更新されるが、精度は+8.0ppから91.5%、完全な正しいエントリは50.9%から78.3%に上昇し、回帰率はわずか0.8%である。
単段階と二段階の統合を比較したアブレーションでは、リビジョンから探索を分離すると、より大きな利得と低い回帰(0.8%対4.8%)が得られることが示され、統合アーキテクチャがモデル能力とは独立して重要であることが示されている。
LLMに基づく科学文献における引用幻覚の評価と緩和を支援するためのベンチマーク、エラー分類、およびclibibツールをリリースする。
関連論文リスト
- How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations [1.0829694003408499]
大規模言語モデル(LLM)は、学術的な引用を作るために注目されているが、この振る舞いの範囲はいまだに定量化されていない。
これまでに,4つの学術領域に10のLLMを商業展開させた,最も大きな幻覚誘発検査の1つを報告した。
以上の結果から,観察された幻覚率は5倍の範囲(11.4%から56.8%)で,モデル,ドメイン,迅速なフレーミングによって強く形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-07T00:14:00Z) - GhostCite: A Large-Scale Analysis of Citation Validity in the Age of Large Language Models [22.147294042024836]
キュテーションは科学的主張を信頼する基盤を提供するが、それらが無効または製造された場合、この信頼は崩壊する。
LLM(Large Language Models)の出現により、このリスクは増大した。
我々は大規模な引用検証のためのオープンソースのフレームワークであるCiteVerifierを開発した。
論文 参考訳(メタデータ) (2026-02-06T14:08:34Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction [11.731590131260424]
CorBenchXは胸部X線レポートにおける自動エラー検出と修正のためのスイートである。
まず,26,326個の胸部X線誤差の大規模データセットを合成した。
オープンソースとクローズドなビジョン言語モデルの両方をベンチマークします。
論文 参考訳(メタデータ) (2025-05-17T15:39:39Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。