論文の概要: MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences
- arxiv url: http://arxiv.org/abs/2410.02381v1
- Date: Mon, 7 Oct 2024 16:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:40:32.194083
- Title: MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences
- Title(参考訳): メタメトリクス:人間の選好を用いたタスク生成のためのメトリクスの校正
- Authors: Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, Derry Tanti Wijaya,
- Abstract要約: メタメトリクス(MetaMetrics)は,様々なモダリティにまたがる生成タスクを教師付きで評価するメタメトリクスである。
我々の測定基準は、言語と視覚の両方の下流タスクにおける柔軟性と有効性を示し、様々な多言語および多ドメインのシナリオにおいて大きな利点を示します。
- 参考スコア(独自算出の注目度): 14.636927775315783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the quality of a performance evaluation metric is crucial for ensuring that model outputs align with human preferences. However, it remains unclear how well each metric captures the diverse aspects of these preferences, as metrics often excel in one particular area but not across all dimensions. To address this, it is essential to systematically calibrate metrics to specific aspects of human preference, catering to the unique characteristics of each aspect. We introduce MetaMetrics, a calibrated meta-metric designed to evaluate generation tasks across different modalities in a supervised manner. MetaMetrics optimizes the combination of existing metrics to enhance their alignment with human preferences. Our metric demonstrates flexibility and effectiveness in both language and vision downstream tasks, showing significant benefits across various multilingual and multi-domain scenarios. MetaMetrics aligns closely with human preferences and is highly extendable and easily integrable into any application. This makes MetaMetrics a powerful tool for improving the evaluation of generation tasks, ensuring that metrics are more representative of human judgment across diverse contexts.
- Abstract(参考訳): 性能評価指標の品質を理解することは、モデルの出力が人間の好みと一致していることを保証するために不可欠である。
しかし、各計量がこれらの選好の様々な側面をどれだけうまく捉えているかは、はっきりしない。
これに対処するためには、各側面の特異な特徴に対応して、人間の嗜好の特定の側面にメトリクスを体系的に調整することが不可欠である。
そこで,メタメトリックス(MetaMetrics)について紹介する。メタメトリックス(MetaMetrics)は,様々なモダリティにまたがる生成タスクを教師付きで評価するためのメタメトリックである。
MetaMetricsは既存のメトリクスの組み合わせを最適化し、人間の好みに合わせて調整する。
我々の測定基準は、言語と視覚の両方の下流タスクにおける柔軟性と有効性を示し、様々な多言語および多ドメインのシナリオにおいて大きな利点を示します。
MetaMetricsは人間の好みと密接に一致しており、どんなアプリケーションにも非常に拡張可能で簡単に統合できる。
これによりMetaMetricsは、生成タスクの評価を改善する強力なツールとなり、メトリクスがさまざまなコンテキストにわたる人間の判断をよりよく表すようにします。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Meta-evaluation of Conversational Search Evaluation Metrics [15.942419892035124]
我々は様々な会話検索指標を体系的にメタ評価する。
METEORは、すべての3つの視点を考慮して、最も優れた既存のシングルターンメトリックです。
また、適応セッションベースの評価指標を使用して、マルチターン会話検索を測定することも示します。
論文 参考訳(メタデータ) (2021-04-27T20:01:03Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。