論文の概要: Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2605.28565v1
- Date: Wed, 27 May 2026 14:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.13075
- Title: Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs
- Title(参考訳): 検証ミス:LLMにおける構造劣化の測定
- Authors: Yongsik Seo, Wooseok Jeong, Eunyoung Kim, Hyeonseo Jang, Dongha Lee,
- Abstract要約: CITETRACEは、ユーザクエリから取得したソースから生成された回答まで、完全な引用チェーンをトレースするデータセットである。
我々は,意図的アライメント,ソース適合性,回答ソースの忠実度に基づいて各引用をスコアする3次元評価フレームワークを設計する。
プールの向こう側では、引用の30.6%がソースを歪めており、27.1%はドメイン不適切なソースから来ている。
- 参考スコア(独自算出の注目度): 8.721564756242431
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Users of search-augmented LLMs rely on citations as evidence that responses are grounded in real sources, and rarely verify the cited pages themselves. Millions of queries per day now pass through these systems, making citation quality a silent determinant of whether users are informed or misled-yet existing benchmarks each address one facet in isolation, leaving the joint structure that determines citation trustworthiness unmeasured. We construct CITETRACE, a large-scale dataset that traces the full citation chain from user query through retrieved source to generated answer: 11,200 real-world queries from 28 communities paired with 112,000 responses from ten models across five providers, yielding 761,495 evaluable citation pairs. We design a three-dimension evaluation framework that scores each citation on intent-purpose alignment, source suitability, and answer-source fidelity, using expert-validated predefined matrices and a five-level fidelity rubric; the framework applies to any system that produces citation-bearing responses. Applying this framework at scale, we identify a systematic pattern we call VERIFIED MISGUIDANCE (VM): models cite real, accessible sources yet fail along one or more dimensions, producing a fidelity-suitability trade-off in which faithful models select inappropriate sources and vice versa. Across our pool, 30.6% of citations distort their sources and 27.1% originate from domain-inappropriate sources; at the response level, up to 96% of users encounter at least one structurally misleading citation. Provider-level differences explain 88-96% of citation-quality variance, suggesting that source selection is governed more by factors beyond individual model capability than by the LLMs themselves. Together, CITETRACE and its evaluation framework provide the first resource for diagnosing structural citation failures in deployed search-augmented systems.
- Abstract(参考訳): 検索拡張LDMのユーザは、実際のソースで応答が根拠になっているという証拠として引用に依存しており、引用されたページ自体を検証することは滅多にない。
現在、1日に数百万のクエリがこれらのシステムを通過しているため、引用品質は、ユーザが通知されたか、あるいは誤解されたかという、サイレントな決定要因となり、既存のベンチマークはそれぞれ1つの面に個別に対処し、引用の信頼性を判断するジョイント構造を残している。
ユーザクエリから検索したソースから生成した回答に全引用チェーンをトレースする大規模なデータセットであるCITETRACEを構築する。28のコミュニティから11,200のリアルタイムクエリと5つのプロバイダにわたる10のモデルから112,000のレスポンスがペアリングされ、評価可能な引用ペアが761,495になる。
提案する3次元評価フレームワークは,有意なアライメント,ソース適合性,および応答源の忠実度を,専門家検証行列と5レベル忠実度ルーブリックを用いて評価する。
このフレームワークを大規模に適用することで、VERIFIED MISGUIDANCE(VM)と呼ばれる体系的なパターンを特定します。
プール全体では、引用の30.6%がソースを歪め、27.1%がドメイン不適切なソースから生まれており、応答レベルでは、ユーザの96%が少なくとも1つの構造的に誤解を招く引用に遭遇している。
プロバイダレベルでの違いは、引用品質のばらつきの88-96%を説明しており、ソースの選択はLLM自体よりも個々のモデル能力を超える要因によって支配されていることを示唆している。
CITETRACEとその評価フレームワークは、デプロイされた検索拡張システムにおいて、構造的引用障害を診断するための最初のリソースを提供する。
関連論文リスト
- Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents [0.18762753243053634]
大規模言語モデル(LLM)は、数百のWebソースから情報を引用したレポートに合成するディープリサーチエージェントをパワーアップする。
現在のアプローチでは、信頼モデルが正確な自己引用、バイアスのリスク、あるいはソースアクセシビリティ、関連性、事実整合性を検証しない検索強化世代(RAG)を採用する。
本稿では,再現可能なASTルーブリックを用いてインライン引用を大規模に抽出し,評価する最初の情報源属性評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:46:45Z) - Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - SemanticCite: Citation Verification with AI-Powered Full-Text Analysis and Evidence-Based Reasoning [0.0]
本稿では,全文ソース解析による引用精度の検証を行うAIシステムであるSemanticCiteを紹介する。
提案手法は,複数の検索手法と,ニュアンスド・クレーム・ソース関係を抽出する4クラス分類システムを組み合わせたものである。
我々は、詳細なアライメント、機能分類、セマンティックアノテーション、およびバイオロメトリメタデータを備えた1000以上の引用からなる包括的なデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2025-11-20T10:05:21Z) - Citation Failure: Definition, Analysis and Efficient Mitigation [56.09968229868067]
LLMベースのRAGシステムからの引用は、応答検証の簡略化を目的としている。
これは、モデルが有効な応答を生成するとき、引用失敗には当てはまらないが、完全な証拠を引用することができない。
応答自体に欠陥があり、完全な証拠を引用することは不可能である。
論文 参考訳(メタデータ) (2025-10-23T07:47:22Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - CiteEval: Principle-Driven Citation Evaluation for Source Attribution [38.24323805177938]
CiteEvalは、きめ細かい引用評価に焦点を当てた、引用評価フレームワークである。
CiteBenchは、引用品質に関する高品質なヒューマンアノテーションを備えたベンチマークである。
CiteEval-Autoは、人間の判断と強い相関を示すモデルベースのメトリクスのスイートである。
論文 参考訳(メタデータ) (2025-06-02T16:15:34Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。