論文の概要: Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.13663v3
- Date: Thu, 03 Oct 2024 11:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:26.127335
- Title: Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
- Title(参考訳): モデル内部に基づく検索拡張生成のための回答属性
- Authors: Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza,
- Abstract要約: MIRAGE --Model Internals-based RAG Explanations -- このモデル内部を用いたプラグアンドプレイアプローチは、質問応答アプリケーションにおける忠実な回答属性である。
提案手法を多言語QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
- 参考スコア(独自算出の注目度): 8.975024781390077
- License:
- Abstract: Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution.
- Abstract(参考訳): モデル解答の妥当性を保証することは、質問応答(QA)領域における検索強化生成(RAG)の根本的な課題である。
近年,大規模言語モデル (LLM) を文書作成支援に活用する自己引用プロンプトが提案されている。
しかし、自励式LLMは必要なフォーマットにマッチし、既存のソースを参照するのに苦労することが多く、世代を通してLLMのコンテキスト使用を忠実に反映することができない。
本稿では、RAGアプリケーションにおける忠実な回答帰属のために、モデル内部を用いたプラグアンドプレイアプローチであるMIRAGE --Model Internals-based RAG Explanationsを提案する。
MIRAGEは、文脈に敏感な応答トークンを検出し、それらと検索したドキュメントをペアにすることで、その予測を唾液度法で行う。
提案手法を多言語抽出QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
オープンエンドQAでは、MIRAGEは自己引用に匹敵する引用品質と効率を達成すると同時に、帰属パラメータのよりきめ細かい制御を可能にする。
我々の質的評価は、MIRAGEの属性の忠実さを強調し、RAG回答属性に対するモデル内部の有望な適用を裏付けるものである。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Benchmarking Large Language Models in Complex Question Answering
Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。
分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。