Fugu-MT 論文翻訳(概要): MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language

論文の概要: MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language

arxiv url: http://arxiv.org/abs/2406.13698v2
Date: Fri, 08 Nov 2024 09:02:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.888799
Title: MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language
Title（参考訳）: MMTE:メタフォリカル言語の機械翻訳品質評価のためのコーパスとメトリクス
Authors: Shun Wang, Ge Zhang, Han Wu, Tyler Loakman, Wenhao Huang, Chenghua Lin,
Abstract要約: 図形言語の翻訳に焦点をあてた評価指標のセットを提案する。評価プロトコルは,メタフォラル等価性,感情,認証性,品質の4つの側面を推定する。
参考スコア（独自算出の注目度）: 21.927721757976705
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Machine Translation (MT) has developed rapidly since the release of Large Language Models and current MT evaluation is performed through comparison with reference human translations or by predicting quality scores from human-labeled data. However, these mainstream evaluation methods mainly focus on fluency and factual reliability, whilst paying little attention to figurative quality. In this paper, we investigate the figurative quality of MT and propose a set of human evaluation metrics focused on the translation of figurative language. We additionally present a multilingual parallel metaphor corpus generated by post-editing. Our evaluation protocol is designed to estimate four aspects of MT: Metaphorical Equivalence, Emotion, Authenticity, and Quality. In doing so, we observe that translations of figurative expressions display different traits from literal ones.
Abstract（参考訳）: 機械翻訳(MT)は,大規模言語モデルのリリース以降急速に発展し,人間の参照翻訳との比較や,ラベル付きデータから品質スコアを予測することによって,現在のMT評価を行う。しかし、これらの主流評価手法は、具体的品質にはほとんど注意を払わず、流布と事実の信頼性に重点を置いている。本稿では,MTの図形的品質について検討し,図形言語の翻訳に焦点をあてた評価指標のセットを提案する。また、後編集により生成された多言語並列メタファーコーパスも提示する。評価プロトコルは,メタフォラル等価性,感情,認証性,品質の4つの側面を推定する。このようにして、図形表現の翻訳が、リテラルと異なる特徴を示すのを観察する。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。このアプローチでは、包括的な多言語百科事典BabelNetを用いる。 Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文参考訳（メタデータ） (2024-03-06T08:02:21Z)
Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation [7.858458986992082]
本稿では,感情を重畳したテキストの翻訳において,現在の機械翻訳(MT)ツールがどのように機能するかに焦点を当てる。本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。
論文参考訳（メタデータ） (2023-06-20T21:22:45Z)
Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-23T16:56:10Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Competency-Aware Neural Machine Translation: Can Machine Translation Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。提案手法は品質評価において優れた性能を示すことを示す。
論文参考訳（メタデータ） (2022-11-25T02:39:41Z)
Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文参考訳（メタデータ） (2022-05-17T17:57:06Z)
Sentiment-Aware Measure (SAM) for Evaluating Sentiment Transfer by Machine Translation Systems [0.0]
感情が主メッセージであるテキストの翻訳において、人間の翻訳者は感情を伝達する単語に特に注意を向ける。 MTシステムによるテキスト中の感情メッセージの翻訳精度を評価するのに適した数値的感情閉鎖性尺度を提案する。
論文参考訳（メタデータ） (2021-09-30T07:35:56Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)
Can Your Context-Aware MT System Pass the DiP Benchmark Tests? : Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文参考訳（メタデータ） (2020-04-30T07:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。