論文の概要: A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content
- arxiv url: http://arxiv.org/abs/2410.03277v1
- Date: Fri, 4 Oct 2024 09:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:18:36.073976
- Title: A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content
- Title(参考訳): 感情負荷によるユーザ生成コンテンツの機械翻訳評価のためのマルチタスク学習フレームワーク
- Authors: Shenbin Qian, Constantin Orăsan, Diptesh Kanojia, Félix do Carmo,
- Abstract要約: ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。
感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。
文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
- 参考スコア(独自算出の注目度): 6.213698466889738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation (MT) of user-generated content (UGC) poses unique challenges, including handling slang, emotion, and literary devices like irony and sarcasm. Evaluating the quality of these translations is challenging as current metrics do not focus on these ubiquitous features of UGC. To address this issue, we utilize an existing emotion-related dataset that includes emotion labels and human-annotated translation errors based on Multi-dimensional Quality Metrics. We extend it with sentence-level evaluation scores and word-level labels, leading to a dataset suitable for sentence- and word-level translation evaluation and emotion classification, in a multi-task setting. We propose a new architecture to perform these tasks concurrently, with a novel combined loss function, which integrates different loss heuristics, like the Nash and Aligned losses. Our evaluation compares existing fine-tuning and multi-task learning approaches, assessing generalization with ablative experiments over multiple datasets. Our approach achieves state-of-the-art performance and we present a comprehensive analysis for MT evaluation of UGC.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の機械翻訳(MT)は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。
これらの翻訳の品質を評価することは、現在のメトリクスがUGCのユビキタスな機能に重点を置いていないため、難しい。
この問題に対処するために、感情ラベルと多次元品質指標に基づく人手による翻訳誤りを含む既存の感情関連データセットを利用する。
文レベル評価スコアと単語レベルラベルで拡張し、マルチタスク設定で文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
我々はこれらのタスクを同時に実行する新しいアーキテクチャを提案し、NashやAligned Lossのような異なる損失ヒューリスティックを統合した新しい複合損失関数を提案する。
本評価では,既存の微調整学習とマルチタスク学習のアプローチを比較し,複数のデータセット上でのアブレーション実験による一般化を評価する。
提案手法は最先端性能を実現し,UGCのMT評価のための総合的な解析手法を提案する。
関連論文リスト
- UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Evaluation of Chinese-English Machine Translation of Emotion-Loaded
Microblog Texts: A Human Annotated Dataset for the Quality Assessment of
Emotion Translation [7.858458986992082]
本稿では,感情を重畳したテキストの翻訳において,現在の機械翻訳(MT)ツールがどのように機能するかに焦点を当てる。
本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。
論文 参考訳(メタデータ) (2023-06-20T21:22:45Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Understanding the Impact of UGC Specificities on Translation Quality [6.123324869194193]
本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的に考察する。
テストセットの標準メトリックを使用した平均ケースパフォーマンスの測定は、翻訳品質の信頼性の高いイメージを提供するには程遠い。
論文 参考訳(メタデータ) (2021-10-24T23:25:29Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。