論文の概要: BLEU Neighbors: A Reference-less Approach to Automatic Evaluation
- arxiv url: http://arxiv.org/abs/2004.12726v3
- Date: Mon, 12 Oct 2020 21:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:28:33.681619
- Title: BLEU Neighbors: A Reference-less Approach to Automatic Evaluation
- Title(参考訳): BLEU Neighbors: 自動評価のための参照レスアプローチ
- Authors: Kawin Ethayarajh and Dorsa Sadigh
- Abstract要約: 評価は自然言語生成(NLG)モデルの開発におけるボトルネックである。
BLEUスコアをカーネル関数として使用することにより、言語品質を推定する最も近い近隣モデルであるBLEU Neighborsを提案する。
BLEU Neighborsは、自動評価エッセイで最先端のモデルを上回ります。
- 参考スコア(独自算出の注目度): 35.37178604982517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation is a bottleneck in the development of natural language generation
(NLG) models. Automatic metrics such as BLEU rely on references, but for tasks
such as open-ended generation, there are no references to draw upon. Although
language diversity can be estimated using statistical measures such as
perplexity, measuring language quality requires human evaluation. However,
because human evaluation at scale is slow and expensive, it is used sparingly;
it cannot be used to rapidly iterate on NLG models, in the way BLEU is used for
machine translation. To this end, we propose BLEU Neighbors, a nearest
neighbors model for estimating language quality by using the BLEU score as a
kernel function. On existing datasets for chitchat dialogue and open-ended
sentence generation, we find that -- on average -- the quality estimation from
a BLEU Neighbors model has a lower mean squared error and higher Spearman
correlation with the ground truth than individual human annotators. Despite its
simplicity, BLEU Neighbors even outperforms state-of-the-art models on
automatically grading essays, including models that have access to a
gold-standard reference essay.
- Abstract(参考訳): 評価は自然言語生成(NLG)モデルの開発におけるボトルネックである。
BLEUのような自動メトリクスは参照に依存するが、オープンエンドジェネレーションのようなタスクには、引き起こすべき参照は存在しない。
言語多様性はパープレキシティなどの統計的尺度を用いて推定できるが、言語品質の測定には人間による評価が必要である。
しかし、人間のスケール評価は遅くて高価であるため、機械翻訳にBLEUを使用する場合のように、NLGモデル上での迅速な反復には使用できないため、散在的に使用される。
そこで本研究では,BLEUスコアをカーネル関数として使用することにより,言語品質を推定する近傍モデルBLEU Neighborsを提案する。
既存のchitchat対話とオープンエンド文生成のデータセットでは、bleuの隣人モデルによる品質推定は、個々の注釈者よりも平均二乗誤差が低く、スピアマン相関が高いことが分かっている。
その単純さにもかかわらず、BLEU Neighborsは、ゴールドスタンダードの参考エッセイにアクセス可能なモデルを含む、エッセイを自動的に評価する最先端のモデルよりも優れています。
関連論文リスト
- Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Style Locality for Controllable Generation with kNN Language Models [11.4179290793997]
近隣の言語モデルは、単語予測を支援するために類似した文脈を検索する。
局所性レベルを追加することで、モデルは、ソース文書の現在のテキストとの相対的な位置に基づいて、隣人を重み付けする方法を学ぶことができる。
我々のモデルは、スタイルをうまく制御することができ、以前の作業よりも流布スタイルのトレードオフを提供することを示す。
論文 参考訳(メタデータ) (2023-11-01T12:21:53Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - Reward Optimization for Neural Machine Translation with Learned Metrics [18.633477083783248]
我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。
その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
論文 参考訳(メタデータ) (2021-04-15T15:53:31Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。