論文の概要: Response Quality Assessment for Retrieval-Augmented Generation via Conditional Conformal Factuality
- arxiv url: http://arxiv.org/abs/2506.20978v1
- Date: Thu, 26 Jun 2025 03:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.959143
- Title: Response Quality Assessment for Retrieval-Augmented Generation via Conditional Conformal Factuality
- Title(参考訳): 条件付き等角性による検索・拡張生成の応答品質評価
- Authors: Naihe Feng, Yi Sui, Shiyi Hou, Jesse C. Cresswell, Ga Wu,
- Abstract要約: Conformal-RAGは、大規模言語モデル(LLM)における共形予測(CP)の最近の応用に触発された新しいフレームワークである。
精巧なサブステートの品質を統計的に保証し、真理の答えを必要とせずに応答信頼性を確保する。
- 参考スコア(独自算出の注目度): 6.970520292379132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing research on Retrieval-Augmented Generation (RAG) primarily focuses on improving overall question-answering accuracy, often overlooking the quality of sub-claims within generated responses. Recent methods that attempt to improve RAG trustworthiness, such as through auto-evaluation metrics, lack probabilistic guarantees or require ground truth answers. To address these limitations, we propose Conformal-RAG, a novel framework inspired by recent applications of conformal prediction (CP) on large language models (LLMs). Conformal-RAG leverages CP and internal information from the RAG mechanism to offer statistical guarantees on response quality. It ensures group-conditional coverage spanning multiple sub-domains without requiring manual labelling of conformal sets, making it suitable for complex RAG applications. Compared to existing RAG auto-evaluation methods, Conformal-RAG offers statistical guarantees on the quality of refined sub-claims, ensuring response reliability without the need for ground truth answers. Additionally, our experiments demonstrate that by leveraging information from the RAG system, Conformal-RAG retains up to 60\% more high-quality sub-claims from the response compared to direct applications of CP to LLMs, while maintaining the same reliability guarantee.
- Abstract(参考訳): 既存のRAG(Retrieval-Augmented Generation)の研究は、主に質問回答の精度を改善することに焦点を当てており、多くの場合、生成された応答におけるサブステートの品質を見落としている。
自己評価指標を通じてRAGの信頼性を改善しようとする最近の手法では、確率的保証が欠如し、根拠となる真実の答えが求められている。
このような制約に対処するため,コンフォーマルRAG(Conformal-RAG)を提案する。このフレームワークは,大規模言語モデル(LLM)における共形予測(CP)の最近の応用に触発された新しいフレームワークである。
Conformal-RAGはCPとRAG機構の内部情報を活用し、応答品質に関する統計的保証を提供する。
複数のサブドメインにまたがるグループ条件のカバレッジを保証するため、共形集合を手動でラベル付けする必要がなく、複雑なRAGアプリケーションに適している。
既存のRAG自動評価手法と比較して、Conformal-RAGは改良されたサブステートの品質を統計的に保証し、真理の答えを必要とせずに応答信頼性を確保する。
さらに,本実験では,RCGシステムからの情報を活用することにより,CP から LLM への直接適用に比較して,最大60 % の高品質なサブステートを保ちながら,信頼性の保証を維持した。
関連論文リスト
- AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。
我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文 参考訳(メタデータ) (2024-06-20T23:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。