論文の概要: Human Judgement as a Compass to Navigate Automatic Metrics for Formality
Transfer
- arxiv url: http://arxiv.org/abs/2204.07549v1
- Date: Fri, 15 Apr 2022 17:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 15:25:07.327081
- Title: Human Judgement as a Compass to Navigate Automatic Metrics for Formality
Transfer
- Title(参考訳): 定式性伝達のための自動指標をナビゲートするコンパスとしての人間の判断
- Authors: Huiyuan Lai, Jiali Mao, Antonio Toral, Malvina Nissim
- Abstract要約: 形式性伝達の課題に焦点をあて、通常評価される3つの側面(スタイル強度、コンテンツ保存、流布)に焦点をあてる。
フォーマル性伝達におけるこれらの指標の使用について、関連するタスクに対する一般化可能性(あるいはそうでない)に注目して、いくつかの推奨事項を提示します。
- 参考スコア(独自算出の注目度): 13.886432536330807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although text style transfer has witnessed rapid development in recent years,
there is as yet no established standard for evaluation, which is performed
using several automatic metrics, lacking the possibility of always resorting to
human judgement. We focus on the task of formality transfer, and on the three
aspects that are usually evaluated: style strength, content preservation, and
fluency. To cast light on how such aspects are assessed by common and new
metrics, we run a human-based evaluation and perform a rich correlation
analysis. We are then able to offer some recommendations on the use of such
metrics in formality transfer, also with an eye to their generalisability (or
not) to related tasks.
- Abstract(参考訳): 近年,テキスト・スタイル・トランスファーが急激な発展を遂げているが,人的判断に常に頼る可能性に欠ける,いくつかの自動指標を用いて実施される評価基準は確立されていない。
形式性伝達の課題に着目し,通常評価される3つの側面,スタイル強度,コンテンツ保存,フラレンシに着目した。
このような側面を共通メトリクスや新しいメトリクスでどのように評価するかを明らかにするために、人間ベースの評価を行い、豊富な相関分析を行う。
そして、関連するタスクに対する一般化可能性(あるいはそうでない)に注目しながら、形式的な転送におけるそのようなメトリクスの使用に関する推奨事項を提供することができます。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - Evaluating the Evaluation Metrics for Style Transfer: A Case Study in
Multilingual Formality Transfer [11.259786293913606]
この研究は、スタイル転送(ST)におけるメトリクスの多言語的評価としては初めてである。
フォーマルなスタイル転送のタスクにおいて, 先行ST自動測定値の評価を行った。
人間の判断とよく相関し、言語間で堅牢なモデルをいくつか特定する。
論文 参考訳(メタデータ) (2021-10-20T17:21:09Z) - On the interaction of automatic evaluation and task framing in headline
style transfer [6.27489964982972]
本稿では,スタイル転送などの微妙なテキストの差異を含むタスクの評価手法を提案する。
BLEUやROUGEのような従来のメトリクスよりも,システムの違いを反映した方がよいことを示す。
論文 参考訳(メタデータ) (2021-01-05T16:36:26Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。