論文の概要: Human-Calibrated Automated Testing and Validation of Generative Language Models
- arxiv url: http://arxiv.org/abs/2411.16391v1
- Date: Mon, 25 Nov 2024 13:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:12.172812
- Title: Human-Calibrated Automated Testing and Validation of Generative Language Models
- Title(参考訳): ヒューマンキャリブレーションによる自動テストと生成言語モデルの検証
- Authors: Agus Sudjianto, Aijun Zhang, Srinivas Neppalli, Tarun Joshi, Michal Malohlava,
- Abstract要約: 本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
- 参考スコア(独自算出の注目度): 3.2855317710497633
- License:
- Abstract: This paper introduces a comprehensive framework for the evaluation and validation of generative language models (GLMs), with a focus on Retrieval-Augmented Generation (RAG) systems deployed in high-stakes domains such as banking. GLM evaluation is challenging due to open-ended outputs and subjective quality assessments. Leveraging the structured nature of RAG systems, where generated responses are grounded in a predefined document collection, we propose the Human-Calibrated Automated Testing (HCAT) framework. HCAT integrates a) automated test generation using stratified sampling, b) embedding-based metrics for explainable assessment of functionality, risk and safety attributes, and c) a two-stage calibration approach that aligns machine-generated evaluations with human judgments through probability calibration and conformal prediction. In addition, the framework includes robustness testing to evaluate model performance against adversarial, out-of-distribution, and varied input conditions, as well as targeted weakness identification using marginal and bivariate analysis to pinpoint specific areas for improvement. This human-calibrated, multi-layered evaluation framework offers a scalable, transparent, and interpretable approach to GLM assessment, providing a practical and reliable solution for deploying GLMs in applications where accuracy, transparency, and regulatory compliance are paramount.
- Abstract(参考訳): 本稿では,ジェネレーティブ言語モデル (GLM) の評価と検証のための包括的なフレームワークについて紹介する。
GLMの評価は、オープンな出力と主観的な品質評価のために困難である。
本稿では, RAGシステムの構造的特性を活用し, 生成した応答を事前定義された文書コレクションに基盤として, HCAT(Human-Calibrated Automated Testing)フレームワークを提案する。
HCATは統合する
a) 層別サンプリングを用いた自動テスト生成
ロ 機能、リスク及び安全属性の説明可能な評価のための埋め込み基準
c) 確率キャリブレーションと共形予測により、機械による評価を人間の判断と整合させる2段階キャリブレーション手法。
さらに、このフレームワークは、逆数、分布外および様々な入力条件に対するモデル性能を評価するためのロバストネステストを含む。
このヒューマンキャリブレーションされた多層評価フレームワークは、GLMアセスメントに対するスケーラブルで透明で解釈可能なアプローチを提供し、正確性、透明性、規制コンプライアンスが最重要であるアプリケーションにGLMをデプロイするための実用的で信頼性の高いソリューションを提供する。
関連論文リスト
- Scoring Verifiers: Evaluating Synthetic Verification in Code and Reasoning [59.25951947621526]
本稿では,合成検証手法が解の正当性評価に与える影響を評価するためのベンチマークを紹介する。
我々は,標準,推論,報酬に基づくLLMにおける合成検証手法を解析した。
その結果,最近の推論モデルではテストケースの生成が大幅に改善され,スケールテストケースの精度が向上した。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。