Fugu-MT 論文翻訳(概要): Human-Calibrated Automated Testing and Validation of Generative Language Models

論文の概要: Human-Calibrated Automated Testing and Validation of Generative Language Models

arxiv url: http://arxiv.org/abs/2411.16391v2
Date: Sat, 07 Dec 2024 16:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.494563
Title: Human-Calibrated Automated Testing and Validation of Generative Language Models
Title（参考訳）: ヒューマンキャリブレーションによる自動テストと生成言語モデルの検証
Authors: Agus Sudjianto, Aijun Zhang, Srinivas Neppalli, Tarun Joshi, Michal Malohlava,
Abstract要約: 本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
参考スコア（独自算出の注目度）: 3.2855317710497633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a comprehensive framework for the evaluation and validation of generative language models (GLMs), with a focus on Retrieval-Augmented Generation (RAG) systems deployed in high-stakes domains such as banking. GLM evaluation is challenging due to open-ended outputs and subjective quality assessments. Leveraging the structured nature of RAG systems, where generated responses are grounded in a predefined document collection, we propose the Human-Calibrated Automated Testing (HCAT) framework. HCAT integrates a) automated test generation using stratified sampling, b) embedding-based metrics for explainable assessment of functionality, risk and safety attributes, and c) a two-stage calibration approach that aligns machine-generated evaluations with human judgments through probability calibration and conformal prediction. In addition, the framework includes robustness testing to evaluate model performance against adversarial, out-of-distribution, and varied input conditions, as well as targeted weakness identification using marginal and bivariate analysis to pinpoint specific areas for improvement. This human-calibrated, multi-layered evaluation framework offers a scalable, transparent, and interpretable approach to GLM assessment, providing a practical and reliable solution for deploying GLMs in applications where accuracy, transparency, and regulatory compliance are paramount.
Abstract（参考訳）: 本稿では,ジェネレーティブ言語モデル (GLM) の評価と検証のための包括的なフレームワークについて紹介する。 GLMの評価は、オープンな出力と主観的な品質評価のために困難である。本稿では, RAGシステムの構造的特性を活用し, 生成した応答を事前定義された文書コレクションに基盤として, HCAT(Human-Calibrated Automated Testing)フレームワークを提案する。 HCATは統合する a) 層別サンプリングを用いた自動テスト生成ロ機能、リスク及び安全属性の説明可能な評価のための埋め込み基準 c) 確率キャリブレーションと共形予測により、機械による評価を人間の判断と整合させる2段階キャリブレーション手法。さらに、このフレームワークは、逆数、分布外および様々な入力条件に対するモデル性能を評価するためのロバストネステストを含む。このヒューマンキャリブレーションされた多層評価フレームワークは、GLMアセスメントに対するスケーラブルで透明で解釈可能なアプローチを提供し、正確性、透明性、規制コンプライアンスが最重要であるアプリケーションにGLMをデプロイするための実用的で信頼性の高いソリューションを提供する。

関連論文リスト

AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment [12.9569411072262]
AutoBenchは、大規模言語モデル(LLM)を評価するための、完全に自動化され、自己持続的なフレームワークである本稿では,eZecute S.R.L によるオープンソースプロジェクトとして開発された AutoBench 方法論の厳密な科学的検証を行う。
論文参考訳（メタデータ） (2025-10-26T09:20:39Z)
Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas [31.16720541398267]
本稿では,評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。このアプローチの鍵となるのは、評価者が人間のレーダとして振る舞うように促すことによって生成される「ペルソナ」格付けを使用することです。提案手法は,aとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとととa
論文参考訳（メタデータ） (2025-09-26T21:42:51Z)
CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文参考訳（メタデータ） (2025-09-26T17:01:54Z)
Diverse And Private Synthetic Datasets Generation for RAG evaluation: A multi-agent framework [2.102846336724103]
Retrieval-augmented Generation (RAG) システムは、外部知識を組み込むことで、より大きな言語モデルの出力を改善する。本研究では,RAG評価のための合成QAデータセットを生成するための新しいマルチエージェントフレームワークを導入し,セマンティック多様性とプライバシ保護を優先する。
論文参考訳（メタデータ） (2025-08-26T11:16:14Z)
Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework [0.0]
大規模言語モデル(LLM)により抽出された臨床データの質を評価するための包括的枠組みを提案する。このフレームワークは、専門家による抽象化に対する変数レベルのパフォーマンスベンチマーク、内部の一貫性と妥当性の自動検証、レプリケーション分析を統合している。この多次元アプローチは、改善が必要な変数の同定、潜時エラーの体系的検出、および実世界の研究におけるデータセットの適合性確認を可能にする。
論文参考訳（メタデータ） (2025-06-09T20:59:16Z)
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。 RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文参考訳（メタデータ） (2025-04-28T08:22:19Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2023-09-23T08:46:11Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。