論文の概要: AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators
- arxiv url: http://arxiv.org/abs/2512.17267v1
- Date: Fri, 19 Dec 2025 06:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.266994
- Title: AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators
- Title(参考訳): AutoMetrics: 自動生成評価器による人的判断の近似
- Authors: Michael J. Ryan, Yanzhe Zhang, Amol Salunkhe, Yi Chu, Di Xu, Diyi Yang,
- Abstract要約: AutoMetricsは、低データ制約下で評価メトリクスを合成するためのフレームワークである。
AutoMetricsは、同等の効果を検証可能な報酬として、プロキシ報酬として使用できることを示す。
- 参考スコア(独自算出の注目度): 57.003100107659684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating user-facing AI applications remains a central challenge, especially in open-ended domains such as travel planning, clinical note generation, or dialogue. The gold standard is user feedback (e.g., thumbs up/down) or behavioral signals (e.g., retention), but these are often scarce in prototypes and research projects, or too-slow to use for system optimization. We present AutoMetrics, a framework for synthesizing evaluation metrics under low-data constraints. AutoMetrics combines retrieval from MetricBank, a collection of 48 metrics we curate, with automatically generated LLM-as-a-Judge criteria informed by lightweight human feedback. These metrics are composed via regression to maximize correlation with human signal. AutoMetrics takes you from expensive measures to interpretable automatic metrics. Across 5 diverse tasks, AutoMetrics improves Kendall correlation with human ratings by up to 33.4% over LLM-as-a-Judge while requiring fewer than 100 feedback points. We show that AutoMetrics can be used as a proxy reward to equal effect as a verifiable reward. We release the full AutoMetrics toolkit and MetricBank to accelerate adaptive evaluation of LLM applications.
- Abstract(参考訳): ユーザ向けAIアプリケーションの評価は依然として中心的な課題であり、特に旅行計画、臨床ノート生成、対話のようなオープンなドメインでは重要な課題である。
金の標準は、ユーザからのフィードバック(例えば、親指の上下)や行動信号(例えば、保持)であるが、プロトタイプや研究プロジェクトやシステムの最適化に使用するには時間がかかりすぎる。
低データ制約下で評価指標を合成するフレームワークであるAutoMetricsを提案する。
AutoMetricsは、私たちがキュレートした48のメトリクスのコレクションであるMetricBankからの検索と、軽量な人間からのフィードバックによって自動的に生成されたLCM-as-a-Judge基準を組み合わせる。
これらの指標は、人間の信号との相関を最大化するために回帰によって構成される。
AutoMetricsは、高価な測度から自動測度を解釈する。
5つの多様なタスクの中で、AutoMetricsは100点未満のフィードバックポイントを必要としながら、LLM-as-a-Judgeよりも最大33.4%まで、Kendallと人間のレーティングの相関を改善している。
AutoMetricsは、同等の効果を検証可能な報酬として、プロキシ報酬として使用できることを示す。
我々は,LLMアプリケーションの適応評価を高速化するために,完全なAutoMetricsツールキットとMetricBankをリリースする。
関連論文リスト
- AutoLibra: Agent Metric Induction from Open-Ended Human Feedback [43.36710903170168]
AutoLibraは、オープンな人間のフィードバックをエージェントトラジェクトリのきめ細かい振る舞いを評価するメトリクスに変換する。
我々は,AutoLibraが従来のエージェント評価ベンチマークよりも具体的なエージェント評価指標を誘導できることを実験的に示す。
この結果から,AutoLibraは言語エージェントの評価と改善のための強力なタスク非依存ツールであることが示唆された。
論文 参考訳(メタデータ) (2025-05-05T17:47:49Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Finding a Balanced Degree of Automation for Summary Evaluation [83.08810773093882]
本稿では,フレキシブル・セミオートマチック・自動要約評価指標を提案する。
半自動 Lite2Pyramid は参照のための再利用可能な人間ラベル付き概要コンテンツユニット(SCU)を保持する
完全自動Lite3Pyramidは、自動的に抽出されたセマンティックトリプルトユニット(STU)をSCUに置き換える
論文 参考訳(メタデータ) (2021-09-23T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。