論文の概要: LaajMeter: A Framework for LaaJ Evaluation
- arxiv url: http://arxiv.org/abs/2508.10161v1
- Date: Wed, 13 Aug 2025 19:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.10388
- Title: LaajMeter: A Framework for LaaJ Evaluation
- Title(参考訳): LaajMeter: LaaJ評価のためのフレームワーク
- Authors: Gal Amram, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Avi Ziv,
- Abstract要約: 大規模言語モデル (LLM) は、自然言語処理タスクにおける評価器としてますます使われている。
LaaJMeterは、LaaJsの制御されたメタ評価のためのシミュレーションベースのフレームワークである。
- 参考スコア(独自算出の注目度): 1.8583060903632522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as evaluators in natural language processing tasks, a paradigm known as LLM-as-a-Judge (LaaJ). While effective in general domains, LaaJs pose significant challenges in domain-specific contexts, where annotated data is scarce and expert evaluation is costly. In such cases, meta-evaluation is often performed using metrics that have not been validated for the specific domain in which they are applied. As a result, it becomes difficult to determine which metrics effectively identify LaaJ quality, and further, what threshold indicates sufficient evaluator performance. In this work, we introduce LaaJMeter, a simulation-based framework for controlled meta-evaluation of LaaJs. LaaJMeter enables engineers to generate synthetic data representing virtual models and judges, allowing systematic analysis of evaluation metrics under realistic conditions. This helps practitioners validate and refine LaaJs for specific evaluation tasks: they can test whether their metrics correctly distinguish between better and worse (virtual) LaaJs, and estimate appropriate thresholds for evaluator adequacy. We demonstrate the utility of LaaJMeter in a code translation task involving a legacy programming language, showing how different metrics vary in sensitivity to evaluator quality. Our results highlight the limitations of common metrics and the importance of principled metric selection. LaaJMeter provides a scalable and extensible solution for assessing LaaJs in low-resource settings, contributing to the broader effort to ensure trustworthy and reproducible evaluation in NLP.
- Abstract(参考訳): 大規模言語モデル (LLM) は、LLM-as-a-Judge (LaaJ) として知られるパラダイムである自然言語処理タスクの評価器として、ますます使われている。
一般的なドメインでは有効だが、アノテーション付きデータが不足し、専門家による評価がコストがかかるドメイン固有のコンテキストにおいて、LaaJは重大な課題を提起する。
このような場合、メタ評価は、適用された特定のドメインに対して検証されていないメトリクスを使用して行われることが多い。
その結果、どの指標がLaaJの品質を効果的に識別するかを判断することは困難となり、さらにどのしきい値が十分な評価器の性能を示すかが分かる。
本稿では,LaaJのメタ評価を制御するためのシミュレーションベースのフレームワークであるLaaJMeterを紹介する。
LaaJMeterは、仮想モデルと裁判官を表す合成データを生成し、現実的な条件下での評価メトリクスを体系的に分析することを可能にする。
これにより、特定の評価タスクに対して、実践者がLaaJを検証および精査するのに役立つ。
本稿では,レガシプログラミング言語を含むコード翻訳タスクにおけるLaaJMeterの有用性を実演する。
その結果、共通メトリクスの限界と、原則付きメトリック選択の重要性が浮き彫りになった。
LaaJMeterは、低リソース環境でLaaJを評価するためのスケーラブルで拡張可能なソリューションを提供する。
関連論文リスト
- Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。
翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文 参考訳(メタデータ) (2025-03-25T16:42:25Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。