Fugu-MT 論文翻訳(概要): Towards a rigorous evaluation of RAG systems: the challenge of due diligence

論文の概要: Towards a rigorous evaluation of RAG systems: the challenge of due diligence

arxiv url: http://arxiv.org/abs/2507.21753v1
Date: Tue, 29 Jul 2025 12:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.259878
Title: Towards a rigorous evaluation of RAG systems: the challenge of due diligence
Title（参考訳）: RAGシステムの厳密な評価に向けて--デュ・ディリジェンスへの挑戦
Authors: Grégoire Martinon, Alexandra Lorenzo de Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas J-B. Brunel,
Abstract要約: 生成的AIの台頭は、医療や金融といったリスクの高い分野に大きな進歩をもたらした。 Retrieval-Augmented Generation (RAG)アーキテクチャは、言語モデル(LLM)と検索エンジンを組み合わせたもので、特に文書コーパスから応答を生成する能力で有名である。本研究では、投資ファンドのデューディリジェンスに使用されるRAGシステムを評価する。
参考スコア（独自算出の注目度）: 39.577682622066256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of generative AI, has driven significant advancements in high-risk sectors like healthcare and finance. The Retrieval-Augmented Generation (RAG) architecture, combining language models (LLMs) with search engines, is particularly notable for its ability to generate responses from document corpora. Despite its potential, the reliability of RAG systems in critical contexts remains a concern, with issues such as hallucinations persisting. This study evaluates a RAG system used in due diligence for an investment fund. We propose a robust evaluation protocol combining human annotations and LLM-Judge annotations to identify system failures, like hallucinations, off-topic, failed citations, and abstentions. Inspired by the Prediction Powered Inference (PPI) method, we achieve precise performance measurements with statistical guarantees. We provide a comprehensive dataset for further analysis. Our contributions aim to enhance the reliability and scalability of RAG systems evaluation protocols in industrial applications.
Abstract（参考訳）: 生成的AIの台頭は、医療や金融といったリスクの高い分野に大きな進歩をもたらした。 Retrieval-Augmented Generation (RAG)アーキテクチャは、言語モデル(LLM)と検索エンジンを組み合わせたもので、特に文書コーパスから応答を生成する能力で有名である。その可能性にもかかわらず、重要な文脈におけるRAGシステムの信頼性は問題であり、幻覚などの問題が続いている。本研究では、投資ファンドのデューディリジェンスに使用されるRAGシステムを評価する。本稿では,人間のアノテーションとLLM-Judgeアノテーションを組み合わせたロバストな評価プロトコルを提案する。予測パワード推論(PPI)法に着想を得て,統計的保証付き精度の高い性能測定を行った。さらなる分析のための包括的なデータセットを提供する。本研究の目的は,産業アプリケーションにおけるRAGシステム評価プロトコルの信頼性とスケーラビリティの向上である。

関連論文リスト

A Systematic Review of Key Retrieval-Augmented Generation (RAG) Systems: Progress, Gaps, and Future Directions [1.4931265249949528]
Retrieval-Augmented Generation (RAG)は自然言語処理(NLP)における大きな進歩である RAGは、大規模言語モデル(LLM)と情報検索システムを組み合わせて、事実的根拠付け、正確性、文脈的関連性を高める。本稿ではRAGの体系的なレビューを行い、最近の最先端実装に対するオープンドメイン質問の早期展開から進化を辿る。
論文参考訳（メタデータ） (2025-07-25T03:05:46Z)
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。 RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文参考訳（メタデータ） (2025-04-28T08:22:19Z)
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。 RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。 RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文参考訳（メタデータ） (2025-02-08T06:50:47Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文参考訳（メタデータ） (2024-09-16T09:06:44Z)
VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。 VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文参考訳（メタデータ） (2024-08-16T21:59:59Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。