論文の概要: LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation
- arxiv url: http://arxiv.org/abs/2603.09403v1
- Date: Tue, 10 Mar 2026 09:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.197962
- Title: LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation
- Title(参考訳): メタジャッジとしてのLCM:NLP評価メトリクス検証のための合成データ
- Authors: Lukáš Eigler, Jindřich Libovický, David Hurych,
- Abstract要約: 実データのセマンティックな劣化を制御して合成評価データセットを生成するスケーラブルなフレームワークであるMeta-JudgeとしてtextitLLMを提案する。
我々は、合成データから得られたメートル法ランキングと、標準的なヒトのベンチマークから得られたメートル法ランキングのアライメントを測定し、テクトメタ相関を用いてアプローチを検証する。
- 参考スコア(独自算出の注目度): 3.4595918693014203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Validating evaluation metrics for NLG typically relies on expensive and time-consuming human annotations, which predominantly exist only for English datasets. We propose \textit{LLM as a Meta-Judge}, a scalable framework that utilizes LLMs to generate synthetic evaluation datasets via controlled semantic degradation of real data, replacing human judgment. We validate our approach using \textit{meta-correlation}, measuring the alignment between metric rankings derived from synthetic data and those from standard human benchmarks. Experiments across Machine Translation, Question Answering, and Summarization demonstrate that synthetic validation serves as a reliable proxy for human judgment, achieving meta-correlations exceeding 0.9 in multilingual QA and proves to be a viable alternative where human judgments are unavailable or too expensive to obtain. Our code and data will become publicly available upon paper acceptance.
- Abstract(参考訳): NLGの評価指標の検証は一般的に、高価で時間を要する人間のアノテーションに依存しており、主に英語のデータセットにのみ存在する。
そこで我々は,LLMを用いて実データの意味的劣化を制御して合成評価データセットを生成する,スケーラブルなフレームワークであるMeta-Judge}として‘textit{LLM’を提案する。
我々は,合成データから得られた測定値と標準的なヒトベンチマークから得られた測定値のアライメントを測定するために,textit{meta-correlation} を用いてアプローチを検証する。
機械翻訳、質問回答、要約による実験は、人工的検証が人間の判断の信頼できるプロキシとして機能し、多言語QAにおいて0.9を超えるメタ相関を達成することを示し、人間の判断が利用できない、あるいは入手するのに高すぎる、実行可能な代替手段であることが証明されている。
私たちのコードとデータは、論文の受理によって公開されます。
関連論文リスト
- Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too [42.13843953705695]
本稿では,合成要約を用いて,テスト時に一対のマシンランキングとして機能するダイレクトスコーリング手法を提案する。
提案手法は, 軸平均試料レベルの相関関係から, 最先端のペアワイズ評価器と同等に動作することを示す。
論文 参考訳(メタデータ) (2025-09-05T18:48:34Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data [14.900342838726747]
合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-07-12T04:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。