論文の概要: Concise and Sufficient Sub-Sentence Citations for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.20859v1
- Date: Thu, 25 Sep 2025 07:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.769254
- Title: Concise and Sufficient Sub-Sentence Citations for Retrieval-Augmented Generation
- Title(参考訳): 検索・拡張生成のための簡潔かつ十分なサブ文キュレーション
- Authors: Guo Chen, Qiuyuan Li, Qiuxian Li, Hongliang Dai, Xiang Chen, Piji Li,
- Abstract要約: RAG質問応答システムでは、大きな言語モデル(LLM)出力の引用を生成することにより、ユーザが潜在的幻覚を識別するのに役立つ。
第一に、引用は通常文や段落レベルで提供される。
第二に、文レベルの引用は、出力を検証するのに不可欠な情報を省略し、ユーザが周囲のコンテキストを読むことを強制する。
本稿では,簡潔かつ十分なサブ文引用を生成することを提案する。これにより,ユーザが生成した出力の正確性を確認するのに要する労力を削減できる。
- 参考スコア(独自算出の注目度): 28.229130944067787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In retrieval-augmented generation (RAG) question answering systems, generating citations for large language model (LLM) outputs enhances verifiability and helps users identify potential hallucinations. However, we observe two problems in the citations produced by existing attribution methods. First, the citations are typically provided at the sentence or even paragraph level. Long sentences or paragraphs may include a substantial amount of irrelevant content. Second, sentence-level citations may omit information that is essential for verifying the output, forcing users to read the surrounding context. In this paper, we propose generating sub-sentence citations that are both concise and sufficient, thereby reducing the effort required by users to confirm the correctness of the generated output. To this end, we first develop annotation guidelines for such citations and construct a corresponding dataset. Then, we propose an attribution framework for generating citations that adhere to our standards. This framework leverages LLMs to automatically generate fine-tuning data for our task and employs a credit model to filter out low-quality examples. Our experiments on the constructed dataset demonstrate that the propose approach can generate high-quality and more readable citations.
- Abstract(参考訳): 検索拡張型質問応答システム(RAG)では、大言語モデル(LLM)出力の引用を生成することにより、妥当性が向上し、潜在的幻覚の特定を支援する。
しかし,既存の帰属法による引用の2つの問題点を考察した。
第一に、引用は通常文や段落レベルで提供される。
長い文または段落は、相当量の無関係な内容を含むことができる。
第二に、文レベルの引用は、出力を検証するのに不可欠な情報を省略し、ユーザが周囲のコンテキストを読むことを強制する。
本稿では,簡潔かつ十分なサブ文引用を生成することを提案する。これにより,ユーザが生成した出力の正確性を確認するのに必要な労力を削減できる。
この目的のために、まずこのような引用のためのアノテーションガイドラインを開発し、対応するデータセットを構築する。
そこで本稿では,標準に準拠する引用を生成するための属性フレームワークを提案する。
このフレームワークはLLMを利用してタスクの微調整データを自動的に生成し、低品質のサンプルをフィルタリングするためにクレジットモデルを使用する。
構築されたデータセットに対する実験により,提案手法が高品質で読みやすい引用を生成できることが実証された。
関連論文リスト
- LAQuer: Localized Attribution Queries in Content-grounded Generation [69.60308443863606]
グラウンドドテキスト生成モデルは、しばしば元の資料から逸脱したコンテンツを生成し、正確性を保証するためにユーザの検証を必要とする。
既存の属性メソッドは、全文とソース文書を関連付けるが、これは特定のクレームを事実チェックしようとするユーザにとって圧倒的に多い。
これは、生成された出力の選択したスパンを対応するソーススパンにローカライズし、きめ細かな、ユーザ指向のアトリビューションを可能にする新しいタスクである。
論文 参考訳(メタデータ) (2025-06-01T21:46:23Z) - SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。
SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - Controllable Citation Sentence Generation with Language Models [11.186252009101077]
本稿では,テキストのコンテキスト,参照された論文のコンテキスト,および所望の制御属性を構造化テンプレートに統合し,次世代の予測を通じて言語モデル(LM)を微調整する手法を提案する。
提案したワークフローは、引用属性の提案と条件付き引用生成を1つのLMに調和して組み合わせ、より良いユーザ制御を実現する。
論文 参考訳(メタデータ) (2022-11-14T01:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。