論文の概要: C$^2$-Cite: Contextual-Aware Citation Generation for Attributed Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00004v1
- Date: Wed, 19 Nov 2025 15:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.174597
- Title: C$^2$-Cite: Contextual-Aware Citation Generation for Attributed Large Language Models
- Title(参考訳): C$^2$-Cite:分散大言語モデルのための文脈認識クエーション生成
- Authors: Yue Yu, Ting Bai, HengZhi Lan, Li Qian, Li Peng, Jie Wu, Wei Liu, Jian Luan, Chuan Shi,
- Abstract要約: 我々は,新しいtextbfCon-textual-aware textbfCitation 生成フレームワークを提案する。
引用マーカーと参照コンテンツ間の意味的関係を明示的に統合する。
SOTAベースラインを平均して5.8%の励起品質、17.4%の応答精度で上回っている。
- 参考スコア(独自算出の注目度): 30.653055089917668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attribution technique enhances the credibility of LLMs by adding citations to the generated sentences, enabling users to trace back to the original sources and verify the reliability of the output. However, existing instruction-tuned attributed LLMs often fail to properly interpret the contextual semantics of citation symbols (e.g., [i]) during text generation. This shortcoming arises from their insufficient awareness of the context information surrounding citation markers, which in turn leads to disjointed references and poor integration of retrieved knowledge into the generated content. To address this issue, we propose a novel \textbf{C}ontextual-aware \textbf{C}itation generation framework (\textbf{C$^2$}-\textbf{Cite}) that explicitly integrates the semantic relationships between citation markers and their referenced content. Specifically, a contextual citation alignment mechanism is adopted: it first encodes the retrieved document contexts into the symbol representation of citations, then aligns the marker numbers by decoding information from a citation router function. This mechanism enables the transformation of citation markers from generic placeholders into active knowledge pointers that link to the referenced source information. Experimental results on the ALCE benchmark across three datasets validate our framework C$^2$-Cite++: it outperforms the SOTA baseline by an average of 5.8\% in citation quality and 17.4\% in response correctness. The implementation is publicly available at https://github.com/BAI-LAB/c2cite
- Abstract(参考訳): 帰属技術は、生成された文に引用を追加することでLCMの信頼性を高め、ユーザが元のソースに遡って出力の信頼性を検証することができる。
しかし、既存の命令付き属性付きLLMは、テキスト生成中に引用記号(eg, [i])の文脈意味を適切に解釈できないことが多い。
この欠点は、引用マーカーを取り巻く文脈情報の認識が不十分であることから生じ、結果として、解離した参照と、得られた知識を生成されたコンテンツに組み込むことが不十分になる。
この問題に対処するために、引用マーカーと参照コンテンツ間の意味的関係を明確に統合した、新しい \textbf{C}ontextual-aware \textbf{C}itation generation framework (\textbf{C$^2$}-\textbf{Cite})を提案する。
具体的には、まず検索した文書コンテキストを引用のシンボル表現に符号化し、次いで、引用ルータ関数から情報を復号してマーカー番号を整列させる。
このメカニズムにより、引用マーカーを一般的なプレースホルダーから参照ソース情報にリンクするアクティブなナレッジポインタに変換することができる。
3つのデータセットにわたるALCEベンチマークの実験結果は、我々のフレームワークC$^2$-Cite++を検証している。
実装はhttps://github.com/BAI-LAB/c2citeで公開されている。
関連論文リスト
- Concise and Sufficient Sub-Sentence Citations for Retrieval-Augmented Generation [28.229130944067787]
RAG質問応答システムでは、大きな言語モデル(LLM)出力の引用を生成することにより、ユーザが潜在的幻覚を識別するのに役立つ。
第一に、引用は通常文や段落レベルで提供される。
第二に、文レベルの引用は、出力を検証するのに不可欠な情報を省略し、ユーザが周囲のコンテキストを読むことを強制する。
本稿では,簡潔かつ十分なサブ文引用を生成することを提案する。これにより,ユーザが生成した出力の正確性を確認するのに要する労力を削減できる。
論文 参考訳(メタデータ) (2025-09-25T07:50:30Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。
SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - Contextualizing Generated Citation Texts [11.531517736126657]
本稿では,引用テキスト生成タスクの簡単な修正を提案する。
生成ターゲットは、引用そのものだけではなく、ターゲットの引用を含むコンテキストウィンドウ全体である。
論文 参考訳(メタデータ) (2024-02-28T05:24:21Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Controllable Citation Sentence Generation with Language Models [11.186252009101077]
本稿では,テキストのコンテキスト,参照された論文のコンテキスト,および所望の制御属性を構造化テンプレートに統合し,次世代の予測を通じて言語モデル(LM)を微調整する手法を提案する。
提案したワークフローは、引用属性の提案と条件付き引用生成を1つのLMに調和して組み合わせ、より良いユーザ制御を実現する。
論文 参考訳(メタデータ) (2022-11-14T01:54:08Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。