論文の概要: URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19281v1
- Date: Mon, 02 Mar 2026 00:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.83188
- Title: URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models
- Title(参考訳): URAG:Retrieval-Augmented Large Language Modelにおける不確実性定量化のベンチマーク
- Authors: Vinh Nguyen, Cuong Dang, Jiahao Zhang, Hoa Tran, Minh Tran, Trinh Chau, Thai Le, Lu Cheng, Suhang Wang,
- Abstract要約: URAGは、医療、プログラミング、科学、数学、一般的なテキストなど、さまざまな分野にわたるRAGシステムの不確実性を評価するために設計されたベンチマークである。
評価パイプラインを8つの標準RAG手法に適用し,LACとAPSの計測値に基づいて,精度と予測セットのサイズを両立させ,その性能を計測する。
- 参考スコア(独自算出の注目度): 35.441039437111606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a widely adopted approach for enhancing LLMs in scenarios that demand extensive factual knowledge. However, current RAG evaluations concentrate primarily on correctness, which may not fully capture the impact of retrieval on LLM uncertainty and reliability. To bridge this gap, we introduce URAG, a comprehensive benchmark designed to assess the uncertainty of RAG systems across various fields like healthcare, programming, science, math, and general text. By reformulating open-ended generation tasks into multiple-choice question answering, URAG allows for principled uncertainty quantification via conformal prediction. We apply the evaluation pipeline to 8 standard RAG methods, measuring their performance through both accuracy and prediction-set sizes based on LAC and APS metrics. Our analysis shows that (1) accuracy gains often coincide with reduced uncertainty, but this relationship breaks under retrieval noise; (2) simple modular RAG methods tend to offer better accuracy-uncertainty trade-offs than more complex reasoning pipelines; and (3) no single RAG approach is universally reliable across domains. We further show that (4) retrieval depth, parametric knowledge dependence, and exposure to confidence cues can amplify confident errors and hallucinations. Ultimately, URAG establishes a systematic benchmark for analyzing and enhancing the trustworthiness of retrieval-augmented systems. Our code is available on GitHub.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、広範囲な事実知識を必要とするシナリオにおけるLLMの強化手法として広く採用されている。
しかしながら、現在のRAG評価は、主に正確性に焦点を当てており、LLMの不確実性と信頼性に対する検索の影響を十分に捉えていない可能性がある。
このギャップを埋めるために、医療、プログラミング、科学、数学、一般的なテキストなど、さまざまな分野にわたるRAGシステムの不確実性を評価するために設計された包括的なベンチマークであるURAGを紹介します。
オープンエンド生成タスクを複数選択質問応答に再構成することにより、URAGは共形予測による原理的不確実性定量化を可能にする。
評価パイプラインを8つの標準RAG手法に適用し,LACとAPSの計測値に基づいて,精度と予測セットのサイズを両立させ,その性能を計測する。
解析の結果,(1)精度向上は不確かさの低減とよく一致するが,この関係は検索ノイズの下で破れること,(2)単純なモジュラーRAG法は複雑な推論パイプラインよりも精度・不確実性トレードオフが優れていること,(3)単一RAG法がドメイン間で普遍的に信頼できないこと,などが判明した。
さらに, 検索深度, パラメトリック知識依存性, 信頼度への曝露が, 自信ある誤りや幻覚を増幅することを示した。
最終的に、URAGは、検索強化システムの信頼性を分析し、強化するための体系的なベンチマークを確立する。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards [14.535325886547112]
RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T23:14:13Z) - Towards a rigorous evaluation of RAG systems: the challenge of due diligence [39.577682622066256]
生成的AIの台頭は、医療や金融といったリスクの高い分野に大きな進歩をもたらした。
Retrieval-Augmented Generation (RAG)アーキテクチャは、言語モデル(LLM)と検索エンジンを組み合わせたもので、特に文書コーパスから応答を生成する能力で有名である。
本研究では、投資ファンドのデューディリジェンスに使用されるRAGシステムを評価する。
論文 参考訳(メタデータ) (2025-07-29T12:33:16Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in RAG [13.603907803297561]
RAGシステムは、内部(パラメトリック)と外部(検索)の知識のバランスをとる際の課題に直面します。
本稿では,大規模言語モデルの包括的応答戦略を動的に決定するBRIDGEフレームワークを提案する。
実験では、BRIDGEはすべてのシナリオでバランスの取れたパフォーマンスを維持しながら、ベースラインを5~15%精度で上回っている。
論文 参考訳(メタデータ) (2025-05-21T16:29:19Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。