Fugu-MT 論文翻訳(概要): A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content

論文の概要: A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content

arxiv url: http://arxiv.org/abs/2410.03277v1
Date: Fri, 4 Oct 2024 09:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 23:18:36.073976
Title: A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content
Title（参考訳）: 感情負荷によるユーザ生成コンテンツの機械翻訳評価のためのマルチタスク学習フレームワーク
Authors: Shenbin Qian, Constantin Orăsan, Diptesh Kanojia, Félix do Carmo,
Abstract要約: ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
参考スコア（独自算出の注目度）: 6.213698466889738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine translation (MT) of user-generated content (UGC) poses unique challenges, including handling slang, emotion, and literary devices like irony and sarcasm. Evaluating the quality of these translations is challenging as current metrics do not focus on these ubiquitous features of UGC. To address this issue, we utilize an existing emotion-related dataset that includes emotion labels and human-annotated translation errors based on Multi-dimensional Quality Metrics. We extend it with sentence-level evaluation scores and word-level labels, leading to a dataset suitable for sentence- and word-level translation evaluation and emotion classification, in a multi-task setting. We propose a new architecture to perform these tasks concurrently, with a novel combined loss function, which integrates different loss heuristics, like the Nash and Aligned losses. Our evaluation compares existing fine-tuning and multi-task learning approaches, assessing generalization with ablative experiments over multiple datasets. Our approach achieves state-of-the-art performance and we present a comprehensive analysis for MT evaluation of UGC.
Abstract（参考訳）: ユーザ生成コンテンツ(UGC)の機械翻訳(MT)は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。これらの翻訳の品質を評価することは、現在のメトリクスがUGCのユビキタスな機能に重点を置いていないため、難しい。この問題に対処するために、感情ラベルと多次元品質指標に基づく人手による翻訳誤りを含む既存の感情関連データセットを利用する。文レベル評価スコアと単語レベルラベルで拡張し、マルチタスク設定で文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。我々はこれらのタスクを同時に実行する新しいアーキテクチャを提案し、NashやAligned Lossのような異なる損失ヒューリスティックを統合した新しい複合損失関数を提案する。本評価では,既存の微調整学習とマルチタスク学習のアプローチを比較し,複数のデータセット上でのアブレーション実験による一般化を評価する。提案手法は最先端性能を実現し,UGCのMT評価のための総合的な解析手法を提案する。

関連論文リスト

Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation [0.0]
本稿では,チェコ語固有の文の埋め込みモデルと多言語文の埋め込みモデルを,本質的および外生的評価パラダイムを用いて比較する。内在的評価には、複雑な文変換データセットであるCostraといくつかのセマンティックテキスト類似性(STS)ベンチマークを用いて、埋め込みが言語現象を捉える能力を評価する。余分な評価では,マシン翻訳評価のためのCOMETベースのメトリクスを用いて,各埋め込みモデルを微調整する。
論文参考訳（メタデータ） (2025-06-25T07:46:17Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Advancing Sentiment Analysis in Tamil-English Code-Mixed Texts: Challenges and Transformer-Based Solutions [42.90274643419224]
先進的なトランスフォーマーモデルを用いて,タミル・イングリッシュ・コード・ミックステキストにおける感情分析タスクについて検討した。既存のデータセットとアノテーションギャップの制限について検討し、より大きく多様なコーパスの必要性を強調した。
論文参考訳（メタデータ） (2025-03-30T03:27:41Z)
Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems [6.213698466889738]
そこで我々は,感情に関連する中国語のホモホン語に挑戦する情報理論に触発された新しい手法を提案する。本手法は,感情保存における翻訳誤りの原因となるホモフォンを生成し,機械翻訳システムにおける脆弱性を明らかにする。提案手法の有効性を人体評価を用いて評価し,既存のものと比較した。
論文参考訳（メタデータ） (2025-03-20T13:56:15Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。 We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文参考訳（メタデータ） (2024-09-30T02:56:35Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation [7.858458986992082]
本稿では,感情を重畳したテキストの翻訳において,現在の機械翻訳(MT)ツールがどのように機能するかに焦点を当てる。本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。
論文参考訳（メタデータ） (2023-06-20T21:22:45Z)
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。 7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文参考訳（メタデータ） (2023-06-18T01:38:53Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Understanding the Impact of UGC Specificities on Translation Quality [6.123324869194193]
本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的に考察する。テストセットの標準メトリックを使用した平均ケースパフォーマンスの測定は、翻訳品質の信頼性の高いイメージを提供するには程遠い。
論文参考訳（メタデータ） (2021-10-24T23:25:29Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。