論文の概要: Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution
- arxiv url: http://arxiv.org/abs/2509.21557v1
- Date: Thu, 25 Sep 2025 20:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.997551
- Title: Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution
- Title(参考訳): ポストホック・サイテーションとジェネレーション・タイム : LLMの寄与の全体的評価
- Authors: Yash Saxena, Raviteja Bommireddy, Ankur Padia, Manas Gaur,
- Abstract要約: 大規模言語モデル (LLMs) は、医療、法律、アカデミア、金融といった高度な領域において、人間の検証可能な情報源を引用しなければならない。
本稿では,一つのパスで応答と引用を生成する生成時間Citation(G-Cite)と,起草後の引用を付加または検証するポストホックCitation(P-Cite)という2つのパラダイムを紹介する。
両パラダイムにおける帰属品質の主要因は検索であり,適用範囲と引用精度の相反するトレードオフを示した。
- 参考スコア(独自算出の注目度): 8.691344810384114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy Large Language Models (LLMs) must cite human-verifiable sources in high-stakes domains such as healthcare, law, academia, and finance, where even small errors can have severe consequences. Practitioners and researchers face a choice: let models generate citations during decoding, or let models draft answers first and then attach appropriate citations. To clarify this choice, we introduce two paradigms: Generation-Time Citation (G-Cite), which produces the answer and citations in one pass, and Post-hoc Citation (P-Cite), which adds or verifies citations after drafting. We conduct a comprehensive evaluation from zero-shot to advanced retrieval-augmented methods across four popular attribution datasets and provide evidence-based recommendations that weigh trade-offs across use cases. Our results show a consistent trade-off between coverage and citation correctness, with retrieval as the main driver of attribution quality in both paradigms. P-Cite methods achieve high coverage with competitive correctness and moderate latency, whereas G-Cite methods prioritize precision at the cost of coverage and speed. We recommend a retrieval-centric, P-Cite-first approach for high-stakes applications, reserving G-Cite for precision-critical settings such as strict claim verification. Our codes and human evaluation results are available at https://anonymous.4open.science/r/Citation_Paradigms-BBB5/
- Abstract(参考訳): 信頼できる大規模言語モデル (LLMs) は、医療、法律、アカデミア、金融といった高額な領域において、人間の検証可能な情報源を引用しなければならない。
モデルにデコード中に引用を生成させるか、まずモデルに回答をドラフトさせ、それから適切な引用をアタッチさせる。
この選択を明らかにするために,1回のパスで回答と引用を生成する生成時間Citation(G-Cite)と,起草後の引用を追加するか検証するポストホックCitation(P-Cite)という2つのパラダイムを導入する。
ゼロショットから高度な検索強化手法を4つの一般的な属性データセットで総合的に評価し、ユースケース間のトレードオフを重み付けするエビデンスベースのレコメンデーションを提供する。
両パラダイムにおける帰属品質の主要因は検索であり,適用範囲と引用精度の相反するトレードオフを示した。
P-Cite法は、競合する正しさと適度なレイテンシで高いカバレッジを達成する一方、G-Cite法は、カバレッジとスピードのコストで精度を優先する。
我々は,厳格なクレーム検証などの高精度な設定のために,G-Citeを保存し,検索中心のP-Citeファーストアプローチを推奨する。
私たちのコードと評価結果はhttps://anonymous.4open.science/r/Citation_Paradigms-BBB5/で公開されています。
関連論文リスト
- SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment [2.0383262889621867]
本稿では,引用記事を自動的に推薦し,引用箇所の引用文を生成するSciRGCフレームワークを提案する。
この枠組みは,(1)著者の引用意図を正確に識別し,関連する引用論文を見つける方法,(2)人間の嗜好に沿った高品質な引用文を生成する方法の2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2025-05-26T15:09:10Z) - SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。
SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Learning to Generate Answers with Citations via Factual Consistency Models [28.716998866121923]
大型言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。
本稿では,事実整合性モデル(FCM)を利用した弱教師付き微調整法を提案する。
集中学習は目的に統合され、ファインチューニングプロセスが現実の単位トークンを強調するように指示される。
論文 参考訳(メタデータ) (2024-06-19T00:40:19Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。