論文の概要: GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model
- arxiv url: http://arxiv.org/abs/2404.19232v7
- Date: Wed, 23 Oct 2024 11:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:00.497398
- Title: GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model
- Title(参考訳): GRAMMAR:閉領域検索拡張言語モデルの評価のための基礎的およびモジュール的手法
- Authors: Xinzhe Li, Ming Liu, Shang Gao,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
これらのシステムを評価することは、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、大きな課題となる。
本稿では,グラウンドドデータ生成プロセスを含む評価フレームワークであるGRAMMARと,欠陥モジュールを効果的に特定する評価プロトコルを紹介する。
- 参考スコア(独自算出の注目度): 6.106667677504318
- License:
- Abstract: Retrieval-Augmented Generation (RAG) systems are widely used across various industries for querying closed-domain and in-house knowledge bases. However, evaluating these systems presents significant challenges due to the private nature of closed-domain data and a scarcity of queries with verifiable ground truths. Moreover, there is a lack of analytical methods to diagnose problematic modules and identify types of failure, such as those caused by knowledge deficits or issues with robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising a grounded data generation process and an evaluation protocol that effectively pinpoints defective modules. Our validation experiments reveal that GRAMMAR provides a reliable approach for identifying vulnerable modules and supports hypothesis testing for textual form vulnerabilities. An open-source tool accompanying this framework is available in our GitHub repository (see https://github.com/xinzhel/grammar), allowing for easy reproduction of our results and enabling reliable and modular evaluation in closed-domain settings.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
しかし、これらのシステムの評価は、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、重大な課題を呈している。
さらに、問題のあるモジュールを診断し、知識不足や堅牢性の問題などによって引き起こされる障害の種類を特定するための分析手法が欠如している。
これらの課題に対処するため,GRAMMAR (GRounded and Modular Methodology for Assessment of RAG) を導入する。
検証実験の結果、GRAMMARは脆弱なモジュールを識別するための信頼性の高いアプローチを提供し、テキスト形式の脆弱性に対する仮説テストをサポートすることがわかった。
このフレームワークに付随するオープンソースツールがGitHubリポジトリで公開されています(https://github.com/xinzhel/grammarを参照)。
関連論文リスト
- LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - Human-Calibrated Automated Testing and Validation of Generative Language Models [3.2855317710497633]
本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T13:53:36Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation [11.471919529192048]
LLM(Large Language Models)は、コヒーレントで文脈的に関係のあるテキストを生成するのに熟練した言語モデルである。
Retrieval-augmented Generation (RAG) システムは、構造化知識グラフ(KG)のような外部知識ソースを組み込むことによってこれを緩和する。
本研究は,既存のKG法に基づくRAG法における誤りパターンの解析と8つの臨界故障点の同定により,このジレンマについて検討した。
論文 参考訳(メタデータ) (2024-07-16T23:50:07Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。