Fugu-MT 論文翻訳(概要): Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation

論文の概要: Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation

arxiv url: http://arxiv.org/abs/2306.11900v1
Date: Tue, 20 Jun 2023 21:22:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 15:35:40.082564
Title: Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation
Title（参考訳）: 感情負荷マイクロブログテキストの中国語・英語機械翻訳の評価:感情翻訳の品質評価のための注釈付きデータセット
Authors: Shenbin Qian, Constantin Orasan, Felix do Carmo, Qiuliang Li, Diptesh Kanojia
Abstract要約: 本稿では,感情を重畳したテキストの翻訳において,現在の機械翻訳(MT)ツールがどのように機能するかに焦点を当てる。本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。
参考スコア（独自算出の注目度）: 7.858458986992082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we focus on how current Machine Translation (MT) tools perform on the translation of emotion-loaded texts by evaluating outputs from Google Translate according to a framework proposed in this paper. We propose this evaluation framework based on the Multidimensional Quality Metrics (MQM) and perform a detailed error analysis of the MT outputs. From our analysis, we observe that about 50% of the MT outputs fail to preserve the original emotion. After further analysis of the errors, we find that emotion carrying words and linguistic phenomena such as polysemous words, negation, abbreviation etc., are common causes for these translation errors.
Abstract（参考訳）: 本稿では,既存の機械翻訳(MT)ツールが,Google Translateの出力を評価することで,感情に負荷をかけたテキストの翻訳にどのように作用するかに着目した。本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。分析の結果,MT出力の約50%は元の感情を保たないことがわかった。誤りをさらに分析した結果,多義語,否定語,省略語などの言語現象が,これらの翻訳誤りの原因となることが判明した。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? [6.213698466889738]
本稿では,ユーザ生成コンテンツ(UGC)の機械翻訳において,大規模言語モデル(LLM)が最先端の品質評価手法であるかどうかを検討する。既存の感情関連データセットに人為的アノテートエラーを付加し,多次元品質指標に基づく品質評価スコアを算出した。
論文参考訳（メタデータ） (2024-10-08T20:16:59Z)
A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content [6.213698466889738]
ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
論文参考訳（メタデータ） (2024-10-04T09:49:57Z)
Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文参考訳（メタデータ） (2024-05-29T09:25:49Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
Original or Translated? A Causal Analysis of the Impact of Translationese on Machine Translation Performance [31.47795931399995]
人間に翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主として相関性があるが因果関係ではない。これら2つの要因がMT性能に大きな因果関係を持つことを示す。
論文参考訳（メタデータ） (2022-05-04T19:17:55Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)
Sentiment-Aware Measure (SAM) for Evaluating Sentiment Transfer by Machine Translation Systems [0.0]
感情が主メッセージであるテキストの翻訳において、人間の翻訳者は感情を伝達する単語に特に注意を向ける。 MTシステムによるテキスト中の感情メッセージの翻訳精度を評価するのに適した数値的感情閉鎖性尺度を提案する。
論文参考訳（メタデータ） (2021-09-30T07:35:56Z)
BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文参考訳（メタデータ） (2021-09-29T07:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。