論文の概要: Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand
- arxiv url: http://arxiv.org/abs/2112.04139v1
- Date: Wed, 8 Dec 2021 06:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 00:04:19.090974
- Title: Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand
- Title(参考訳): 二次元リーダーボード:手で言語を生成・評価する
- Authors: Jungo Kasai, Keisuke Sakaguchi, Ronan Le Bras, Lavinia Dunagan, Jacob
Morrison, Alexander R. Fabbri, Yejin Choi, Noah A. Smith
- Abstract要約: リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
- 参考スコア(独自算出の注目度): 117.62186420147563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing researchers have identified limitations of
evaluation methodology for generation tasks, with new questions raised about
the validity of automatic metrics and of crowdworker judgments. Meanwhile,
efforts to improve generation models tend to focus on simple n-gram overlap
metrics (e.g., BLEU, ROUGE). We argue that new advances on models and metrics
should each more directly benefit and inform the other. We therefore propose a
generalization of leaderboards, bidimensional leaderboards (Billboards), that
simultaneously tracks progress in language generation tasks and metrics for
their evaluation. Unlike conventional unidimensional leaderboards that sort
submitted systems by predetermined metrics, a Billboard accepts both generators
and evaluation metrics as competing entries. A Billboard automatically creates
an ensemble metric that selects and linearly combines a few metrics based on a
global analysis across generators. Further, metrics are ranked based on their
correlations with human judgments. We release four Billboards for machine
translation, summarization, and image captioning. We demonstrate that a linear
ensemble of a few diverse metrics sometimes substantially outperforms existing
metrics in isolation. Our mixed-effects model analysis shows that most
automatic metrics, especially the reference-based ones, overrate machine over
human generation, demonstrating the importance of updating metrics as
generation models become stronger (and perhaps more similar to humans) in the
future.
- Abstract(参考訳): 自然言語処理の研究者は、生成タスクの評価方法の限界を特定し、自動メトリクスとクラウドワーカー判断の妥当性に関する新たな疑問を提起した。
一方、生成モデルを改善する努力は単純なn-gram重複メトリクス(BLEU、ROUGEなど)に焦点を当てる傾向にある。
モデルとメトリクスの新たな進歩は、互いに直接的に利益を与え、お互いに知らせるべきである、と私たちは主張する。
そこで我々は,評価のための言語生成タスクの進捗とメトリクスを同時に追跡する,リーダボード,双方向リーダーボード(ビルボード)の一般化を提案する。
提出されたシステムを所定のメトリクスでソートする従来の一次元リーダーボードとは異なり、ビルボードはジェネレータと評価メトリクスの両方を競合するエントリとして受け入れる。
Billboardは自動的にアンサンブルメトリックを生成し、ジェネレータ間のグローバル分析に基づいていくつかのメトリクスを選択し、線形に結合する。
さらに、指標は人的判断との相関に基づいてランク付けされる。
機械翻訳、要約、画像キャプションの4つのビルボードをリリースします。
我々は,いくつかの多様なメトリクスの線形アンサンブルが,時々,既存のメトリクスを分離して大幅に上回ることを実証する。
我々の混合エフェクトモデル分析は、ほとんどの自動メトリクス、特に参照ベースのメトリクスは、人間の生成よりもマシンをオーバーレイし、生成モデルがより強くなり(おそらく人間に近い)、メトリクスを更新することの重要性を示している。
関連論文リスト
- EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。