論文の概要: On the interaction of automatic evaluation and task framing in headline
style transfer
- arxiv url: http://arxiv.org/abs/2101.01634v1
- Date: Tue, 5 Jan 2021 16:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 14:23:24.850107
- Title: On the interaction of automatic evaluation and task framing in headline
style transfer
- Title(参考訳): 見出し型転送における自動評価とタスクフレーミングの相互作用について
- Authors: Lorenzo De Mattei, Michele Cafagna, Huiyuan Lai, Felice Dell'Orletta,
Malvina Nissim, Albert Gatt
- Abstract要約: 本稿では,スタイル転送などの微妙なテキストの差異を含むタスクの評価手法を提案する。
BLEUやROUGEのような従来のメトリクスよりも,システムの違いを反映した方がよいことを示す。
- 参考スコア(独自算出の注目度): 6.27489964982972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An ongoing debate in the NLG community concerns the best way to evaluate
systems, with human evaluation often being considered the most reliable method,
compared to corpus-based metrics. However, tasks involving subtle textual
differences, such as style transfer, tend to be hard for humans to perform. In
this paper, we propose an evaluation method for this task based on
purposely-trained classifiers, showing that it better reflects system
differences than traditional metrics such as BLEU and ROUGE.
- Abstract(参考訳): NLGコミュニティで進行中の議論は、コーパスベースの指標と比較して、人的評価が最も信頼性の高い方法であるとして、システムを評価する最良の方法に関するものである。
しかし、スタイル転送などの微妙なテキストの差異を伴うタスクは、人間が実行するのが難しい傾向がある。
本稿では,目的学習型分類器に基づく評価手法を提案し,BLEUやROUGEといった従来の指標よりもシステム差を反映した手法を提案する。
関連論文リスト
- CovScore: Evaluation of Multi-Document Abstractive Title Set Generation [16.516381474175986]
CovScoreは、テーマのタイトルセットを評価するための自動参照レス方法論である。
評価の異なる側面に沿って,品質を5つの主要な指標に分解する手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:14:15Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。