論文の概要: GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model
- arxiv url: http://arxiv.org/abs/2404.19232v6
- Date: Thu, 15 Aug 2024 21:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:12:39.274485
- Title: GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model
- Title(参考訳): GRAMMAR:閉領域検索拡張言語モデルの評価のための基礎的およびモジュール的手法
- Authors: Xinzhe Li, Ming Liu, Shang Gao,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
これらのシステムを評価することは、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、大きな課題となる。
本稿では,グラウンドドデータ生成プロセスを含む評価フレームワークであるGRAMMARと,欠陥モジュールを効果的に特定する評価プロトコルを紹介する。
- 参考スコア(独自算出の注目度): 6.106667677504318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are widely used across various industries for querying closed-domain and in-house knowledge bases. However, evaluating these systems presents significant challenges due to the private nature of closed-domain data and a scarcity of queries with verifiable ground truths. Moreover, there is a lack of analytical methods to diagnose problematic modules and identify types of failure, such as those caused by knowledge deficits or issues with robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising a grounded data generation process and an evaluation protocol that effectively pinpoints defective modules. Our validation experiments reveal that % traditional reference-free evaluation methods often inaccurately assess false generations, tending toward optimism. In contrast, GRAMMAR provides a reliable approach for identifying vulnerable modules and supports hypothesis testing for textual form vulnerabilities. % An open-source tool accompanying this framework will be released to easily reproduce our results and enable reliable and modular evaluation in closed-domain settings. An open-source tool accompanying this framework is available in our GitHub repository \url{https://github.com/xinzhel/grammar}, allowing for easy reproduction of our results and enabling reliable and modular evaluation in closed-domain settings.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
しかし、これらのシステムの評価は、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、重大な課題を呈している。
さらに、問題のあるモジュールを診断し、知識不足や堅牢性の問題などによって引き起こされる障害の種類を特定するための分析手法が欠如している。
これらの課題に対処するため,GRAMMAR (GRounded and Modular Methodology for Assessment of RAG) を導入する。
評価実験の結果, 従来の基準フリー評価手法は, 誤り世代を不正確に評価し, 楽観主義に傾向があることが判明した。
対照的に、GRAMMARは脆弱性のあるモジュールを識別するための信頼性の高いアプローチを提供し、テキスト形式の脆弱性に対する仮説テストをサポートする。
.% このフレームワークに付随するオープンソースツールがリリースされ、結果を簡単に再現し、クローズドドメイン設定で信頼性とモジュラーの評価を可能にします。
このフレームワークに付随するオープンソースツールがGitHubリポジトリの \url{https://github.com/xinzhel/grammar} で利用可能です。
関連論文リスト
- Human-Calibrated Automated Testing and Validation of Generative Language Models [3.2855317710497633]
本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T13:53:36Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation [11.471919529192048]
LLM(Large Language Models)は、コヒーレントで文脈的に関係のあるテキストを生成するのに熟練した言語モデルである。
Retrieval-augmented Generation (RAG) システムは、構造化知識グラフ(KG)のような外部知識ソースを組み込むことによってこれを緩和する。
本研究は,既存のKG法に基づくRAG法における誤りパターンの解析と8つの臨界故障点の同定により,このジレンマについて検討した。
論文 参考訳(メタデータ) (2024-07-16T23:50:07Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。