論文の概要: FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metricsfor
Automatic Text Generation
- arxiv url: http://arxiv.org/abs/2110.08559v1
- Date: Sat, 16 Oct 2021 11:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 12:32:20.674719
- Title: FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metricsfor
Automatic Text Generation
- Title(参考訳): FrugalScore: 自動テキスト生成のためのチーパ、ライター、高速な評価基準
- Authors: Moussa Kamal Eddine and Guokan Shang and Antoine J.-P. Tixier and
Michalis Vazirgiannis
- Abstract要約: FrugalScoreは、高価なNLGメトリックの固定的で低コストなバージョンを学習するためのアプローチである。
平均して、FrugalScoreは96.8%のパフォーマンスを維持し、24倍の速度で動作し、元のメトリクスの35倍のパラメータを持つ。
- 参考スコア(独自算出の注目度): 17.57487963033025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast and reliable evaluation metrics are key to R&D progress. While
traditional natural language generation metrics are fast, they are not very
reliable. Conversely, new metrics based on large pretrained language models are
much more reliable, but require significant computational resources. In this
paper, we propose FrugalScore, an approach to learn a fixed, low cost version
of any expensive NLG metric, while retaining most of its original performance.
Experiments with BERTScore and MoverScore on summarization and translation show
that FrugalScore is on par with the original metrics (and sometimes better),
while having several orders of magnitude less parameters and running several
times faster. On average over all learned metrics, tasks, and variants,
FrugalScore retains 96.8% of the performance, runs 24 times faster, and has 35
times less parameters than the original metrics. We make our trained metrics
publicly available, to benefit the entire NLP community and in particular
researchers and practitioners with limited resources.
- Abstract(参考訳): 高速で信頼性の高い評価指標が研究開発の進展の鍵となる。
従来の自然言語生成メトリクスは高速だが、信頼性はあまり低い。
逆に、大きな事前訓練された言語モデルに基づく新しいメトリクスは、はるかに信頼性が高いが、かなりの計算資源を必要とする。
本稿では,高価なNLGメトリックの固定・低コストバージョンを学習する手法であるFrugalScoreを提案する。
bertscore と moverscore による要約と翻訳の実験では、frugalscore は元のメトリクスと同等であり(時にはより優れている)、数桁のパラメータが小さく、数倍高速であることが示された。
frugalscoreは、学習したメトリクス、タスク、変種を平均して96.8%のパフォーマンスを保ち、24倍の速度で動作し、元の指標の35分の1のパラメータを持つ。
トレーニング済みのメトリクスを公開して、NLPコミュニティ全体、特に限られたリソースを持つ研究者や実践者に利益をもたらします。
関連論文リスト
- Mitigating Metric Bias in Minimum Bayes Risk Decoding [24.97933059870959]
COMETやMetricXのようなメトリクスを使用した最小ベイズリスク(MBR)復号法は、greedyやビームサーチといった従来の復号法よりも優れている。
MBRデコーディングは、特定のユーティリティメトリックに従って高いスコアの翻訳を生成することを目的としている。
これにより、デコードと評価の両方に同じメトリックを使用することが不可能になる。
論文 参考訳(メタデータ) (2024-11-05T22:01:27Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - H_eval: A new hybrid evaluation metric for automatic speech recognition
tasks [0.3277163122167433]
ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。
意味的正当性と誤り率の両方を考慮し、WERとSDが不十分なシナリオでは極めてよく機能する。
論文 参考訳(メタデータ) (2022-11-03T11:23:36Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。