論文の概要: Classifying and Addressing the Diversity of Errors in Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2510.13975v1
- Date: Wed, 15 Oct 2025 18:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.564583
- Title: Classifying and Addressing the Diversity of Errors in Retrieval-Augmented Generation Systems
- Title(参考訳): 検索型生成システムにおけるエラーの多様性の分類と対応
- Authors: Kin Kwan Leung, Mouloud Belbahri, Yi Sui, Alex Labach, Xueying Zhang, Stephen Rose, Jesse C. Cresswell,
- Abstract要約: Retrieval-augmented Generation (RAG) は、質問応答システムを構築するための一般的なアプローチである。
実世界のRAGシステムの複雑さのため、誤出力には多くの潜在的な原因がある。
本稿では,現実的なRAGシステムで発生するエラーの種類,それぞれの例,そしてそれに対応するための実践的なアドバイスについて,新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 10.899541303791928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is a prevalent approach for building LLM-based question-answering systems that can take advantage of external knowledge databases. Due to the complexity of real-world RAG systems, there are many potential causes for erroneous outputs. Understanding the range of errors that can occur in practice is crucial for robust deployment. We present a new taxonomy of the error types that can occur in realistic RAG systems, examples of each, and practical advice for addressing them. Additionally, we curate a dataset of erroneous RAG responses annotated by error types. We then propose an auto-evaluation method aligned with our taxonomy that can be used in practice to track and address errors during development. Code and data are available at https://github.com/layer6ai-labs/rag-error-classification.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、外部知識データベースを活用可能なLLMベースの質問応答システムを構築するための一般的なアプローチである。
実世界のRAGシステムの複雑さのため、誤出力には多くの潜在的な原因がある。
実際に発生するエラーの範囲を理解することは、ロバストなデプロイメントには不可欠です。
本稿では,現実的なRAGシステムで発生するエラーの種類,それぞれの例,そしてそれに対応するための実践的なアドバイスについて,新しい分類法を提案する。
さらに、エラータイプによって注釈付けされた誤ったRAG応答のデータセットをキュレートする。
そこで我々は,我々の分類に合わせた自動評価手法を提案し,その手法を用いて開発中のエラーの追跡と対処を行う。
コードとデータはhttps://github.com/layer6ai-labs/rag-error-classificationで公開されている。
関連論文リスト
- Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Mitigating the Impact of Labeling Errors on Training via Rockafellian Relaxation [0.8741284539870512]
ニューラルネットワークトレーニングのための新しい損失軽減手法であるRockafellian Relaxation Method (RRM)を提案する。
RRMは、コンピュータビジョンと自然言語処理における分類タスクにおける堅牢な性能を達成するために、ニューラルネットワーク手法を強化することができることを示す実験(感覚分析)
RRMは、ラベル付けエラーと/または敵対的摂動の両方から生じるデータセット汚染の影響を緩和し、さまざまなデータドメインと機械学習タスクで有効性を示すことができる。
論文 参考訳(メタデータ) (2024-05-30T23:13:01Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - Discovering and Validating AI Errors With Crowdsourced Failure Reports [10.4818618376202]
クラウドソースの障害レポートや、モデルが失敗した理由や理由に関するエンドユーザの説明を導入し、開発者がAIエラーの検出にどのように使用できるかを示します。
また、障害レポートを合成する視覚分析システムであるDeblinderを設計、実装する。
半構造化されたインタビューと10人のAI実践者とのシンク・アラウド・スタディでは、現実の環境でのDeblinderシステムと障害報告の適用可能性について検討する。
論文 参考訳(メタデータ) (2021-09-23T23:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。