論文の概要: BLEURT: Learning Robust Metrics for Text Generation
- arxiv url: http://arxiv.org/abs/2004.04696v5
- Date: Thu, 21 May 2020 16:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:54:35.181923
- Title: BLEURT: Learning Robust Metrics for Text Generation
- Title(参考訳): BLEURT:テキスト生成のためのロバストなメトリクスの学習
- Authors: Thibault Sellam, Dipanjan Das, Ankur P. Parikh
- Abstract要約: BERTに基づく学習評価指標BLEURTを提案する。
このアプローチの重要な側面は、モデルを一般化するのに役立つ数百万の合成例を使用する、新しい事前学習方式である。
BLEURTは、WMT Metrics共有タスクとWebNLGコンペティションデータセットの最後の3年間について、最先端の結果を提供する。
- 参考スコア(独自算出の注目度): 17.40369189981227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generation has made significant advances in the last few years. Yet,
evaluation metrics have lagged behind, as the most popular choices (e.g., BLEU
and ROUGE) may correlate poorly with human judgments. We propose BLEURT, a
learned evaluation metric based on BERT that can model human judgments with a
few thousand possibly biased training examples. A key aspect of our approach is
a novel pre-training scheme that uses millions of synthetic examples to help
the model generalize. BLEURT provides state-of-the-art results on the last
three years of the WMT Metrics shared task and the WebNLG Competition dataset.
In contrast to a vanilla BERT-based approach, it yields superior results even
when the training data is scarce and out-of-distribution.
- Abstract(参考訳): テキスト生成はここ数年で大きな進歩を遂げている。
しかし、最も一般的な選択(BLEUやROUGEなど)は人間の判断と相関が低いため、評価基準は後れを取っている。
我々は、人間の判断を数千のバイアスのあるトレーニング例でモデル化できるbertに基づく学習評価指標であるbleurtを提案する。
このアプローチの重要な側面は、モデルを一般化するために数百万の合成例を使用する、新しい事前学習方式である。
BLEURTは、WMT Metrics共有タスクとWebNLGコンペティションデータセットの最後の3年間、最先端の結果を提供する。
バニラBERTベースのアプローチとは対照的に、トレーニングデータが乏しく、配布外であっても優れた結果が得られる。
関連論文リスト
- Selecting Between BERT and GPT for Text Classification in Political Science Research [4.487884986288122]
低データシナリオにおけるBERTモデルとGPTモデルの有効性を評価する。
パフォーマンス、使いやすさ、コストの観点から、これらのアプローチを比較して結論付けます。
論文 参考訳(メタデータ) (2024-11-07T07:29:39Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z) - BERT based sentiment analysis: A software engineering perspective [0.9176056742068814]
本稿では、感情分析のためのBERTモデルを分析するための3つの戦略を提案する。
実験結果から, BERTに基づくアンサンブル手法と圧縮BERTモデルにより, 3つのデータセットのF1測定ツールよりも6-12%向上したことがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:28:26Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - GPT-too: A language-model-first approach for AMR-to-text generation [22.65728041544785]
本稿では,事前学習型言語モデルとサイクル整合性に基づく再描画を併用したアプローチを提案する。
アプローチの単純さにもかかわらず、実験結果は、これらのモデルが過去のすべての手法より優れていることを示している。
論文 参考訳(メタデータ) (2020-05-18T22:50:26Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。