論文の概要: SAFE: Improving LLM Systems using Sentence-Level In-generation Attribution
- arxiv url: http://arxiv.org/abs/2505.12621v2
- Date: Wed, 24 Sep 2025 09:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.213293
- Title: SAFE: Improving LLM Systems using Sentence-Level In-generation Attribution
- Title(参考訳): SAFE:Sentence-Level In- Generation AttributionによるLCMシステムの改善
- Authors: João Eduardo Batista, Emil Vatai, Mohamed Wahib,
- Abstract要約: 生成時に生成された文に属性を付与するRAG(Retrieve-Augmented Generation)システムについて,文レベルのA ttribution FramEworkを提案する。
これにより、ユーザーは文章を読みながら検証し、属性が生成したテキストが文書に接地されていないことを示すときにモデルを修正することができる。
- 参考スコア(独自算出の注目度): 2.0907638666272232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied in various science domains, yet their broader adoption remains constrained by a critical challenge: the lack of trustworthy, verifiable outputs. Current LLMs often generate answers without reliable source attribution, or worse, with incorrect attributions, posing a barrier to their use in scientific and high-stakes settings, where traceability and accountability are paramount. To be reliable, attribution systems require high accuracy for short-length attribution on retrieved data, i.e., attribution to a sentence within a document rather than the entire document. We propose SAFE, a Sentence-level A ttribution FramEwork for Retrieve-Augmented Generation (RAG) systems that attributes generated sentences during generation. This allows users to verify sentences as they read them and correct the model when the attribution indicates the generated text is not grounded in the documents, increasing the safety of LLM systems. This framework consists of two steps: predicting the required number of references for a sentence, and attributing the sentence. Our approach achieved 95% accuracy in the first step, which translated to 2.1\~6.0% improvements in the accuracy (normalized for maximum possible accuracy) of all attribution algorithms in our clean dataset, when compared to their top-1 accuracy. We also applied SAFE in real-world scenarios with documents containing hundreds to thousands of sentences. In these settings, SAFE reliably attributed sentences to their source documents, demonstrating that the method generalizes beyond controlled benchmarks. The SAFE framework and the training dataset are publicly available on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な科学領域でますます適用されているが、その広範な採用は、信頼できる検証可能なアウトプットの欠如という重要な課題によって制限されている。
現在のLSMは、しばしば信頼できる情報源の帰属を伴わず、またはさらに悪いことに、誤った帰属を伴い、トレーサビリティと説明責任が最重要となる科学的かつ高い状況において、彼らの使用の障壁となる。
信頼性を確保するために、属性システムは、取得したデータ、すなわち文書全体ではなく文書内の文への属性に対する短い属性に対して高い精度を必要とする。
生成時に生成された文を属性とする検索・拡張生成システム (RAG) のための文レベルのA ttribution FramEworkである SAFE を提案する。
これにより、ユーザは文章を読みながら検証し、生成したテキストが文書に埋もれていないことを示すとモデルを修正することができ、LCMシステムの安全性が向上する。
このフレームワークは2つのステップで構成されている。文の必要な参照数を予測し、文を帰属する。
最初のステップで95%の精度を達成し、トップ1の精度と比較して、クリーンデータセットの全属性アルゴリズムの精度を2.1\~6.0%向上させた。
また, 数百から数千の文を含む文書を用いて, SAFEを実世界のシナリオに適用した。
これらの設定では、SAFEはテキストをソース文書に確実に属性付けし、このメソッドが制御されたベンチマークを超えて一般化することを実証した。
SAFEフレームワークとトレーニングデータセットはGitHubで公開されている。
関連論文リスト
- LAQuer: Localized Attribution Queries in Content-grounded Generation [69.60308443863606]
グラウンドドテキスト生成モデルは、しばしば元の資料から逸脱したコンテンツを生成し、正確性を保証するためにユーザの検証を必要とする。
既存の属性メソッドは、全文とソース文書を関連付けるが、これは特定のクレームを事実チェックしようとするユーザにとって圧倒的に多い。
これは、生成された出力の選択したスパンを対応するソーススパンにローカライズし、きめ細かな、ユーザ指向のアトリビューションを可能にする新しいタスクである。
論文 参考訳(メタデータ) (2025-06-01T21:46:23Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation [28.89786334298637]
ランキングメトリクスを用いたLCMの最適化手法を開発した。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
論文 参考訳(メタデータ) (2023-11-15T17:27:14Z) - SLIDE: Reference-free Evaluation for Machine Translation using a Sliding Document Window [24.524282909076767]
本稿では,文ブロックで動作するSLIDE(SLIding Document Evaluator)というメトリクスを提案する。
SLIDEは文レベルベースラインよりもペアワイズシステムの精度がかなり高いことがわかった。
このことは、ソースの曖昧さを曖昧にするために、ソースコンテキストが人間の参照と同じ情報を提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-09-16T01:30:58Z) - RARR: Researching and Revising What Language Models Say, Using Language
Models [31.057495176599502]
RARR(Retrofit Attribution using Research and Revision)は,テキスト生成モデルの出力に対する属性を自動的に検出するシステムである。
RARRは、以前検討した編集モデルよりも、元の入力をはるかに高い程度に保存しながら、属性を著しく改善することがわかった。
論文 参考訳(メタデータ) (2022-10-17T03:44:30Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。