論文の概要: Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems
- arxiv url: http://arxiv.org/abs/2503.16158v1
- Date: Thu, 20 Mar 2025 13:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:41.562460
- Title: Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems
- Title(参考訳): 機械翻訳推定システムにおける中国語音声の自動生成
- Authors: Shenbin Qian, Constantin Orăsan, Diptesh Kanojia, Félix do Carmo,
- Abstract要約: そこで我々は,感情に関連する中国語のホモホン語に挑戦する情報理論に触発された新しい手法を提案する。
本手法は,感情保存における翻訳誤りの原因となるホモフォンを生成し,機械翻訳システムにおける脆弱性を明らかにする。
提案手法の有効性を人体評価を用いて評価し,既存のものと比較した。
- 参考スコア(独自算出の注目度): 6.213698466889738
- License:
- Abstract: Evaluating machine translation (MT) of user-generated content (UGC) involves unique challenges such as checking whether the nuance of emotions from the source are preserved in the target text. Recent studies have proposed emotion-related datasets, frameworks and models to automatically evaluate MT quality of Chinese UGC, without relying on reference translations. However, whether these models are robust to the challenge of preserving emotional nuances has been left largely unexplored. To address this gap, we introduce a novel method inspired by information theory which generates challenging Chinese homophone words related to emotions, by leveraging the concept of self-information. Our approach generates homophones that were observed to cause translation errors in emotion preservation, and exposes vulnerabilities in MT systems and their evaluation methods when tackling emotional UGC. We evaluate the efficacy of our method using human evaluation for the quality of these generated homophones, and compare it with an existing one, showing that our method achieves higher correlation with human judgments. The generated Chinese homophones, along with their manual translations, are utilized to generate perturbations and to probe the robustness of existing quality evaluation models, including models trained using multi-task learning, fine-tuned variants of multilingual language models, as well as large language models (LLMs). Our results indicate that LLMs with larger size exhibit higher stability and robustness to such perturbations. We release our data and code for reproducibility and further research.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の機械翻訳(MT)を評価するには、ソースからの感情のニュアンスがターゲットテキストに保存されているかどうかを確認するなど、ユニークな課題が伴う。
近年,中国UGCのMT品質を基準翻訳に頼らずに自動評価するための感情関連データセット,フレームワーク,モデルが提案されている。
しかし、これらのモデルが感情的なニュアンスを保存するという課題に対して堅牢であるかどうかについては、明らかにされていない。
このギャップに対処するために,我々は,自己情報の概念を活用することで,感情に関連する中国語のホモホン語に挑戦する情報理論に触発された新しい手法を提案する。
提案手法は,感情保存における翻訳誤りの原因となるホモフォンを生成し,情緒的UGCに対処する際のMTシステムとその評価方法の脆弱性を明らかにする。
提案手法の有効性を人体評価を用いて評価し,既存のものと比較し,人間の判断と高い相関性が得られることを示す。
生成された中国語のホモフォンは、手動翻訳とともに、摂動を発生させ、マルチタスク学習を用いて訓練されたモデル、多言語モデルの微調整版、および大規模言語モデル(LLM)など、既存の品質評価モデルの堅牢性を調べるために使用される。
以上の結果から,LLMの粒径が大きくなると,そのような摂動に対する安定性と堅牢性が向上することが示唆された。
再現性とさらなる研究のために、データとコードを公開します。
関連論文リスト
- A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content [6.213698466889738]
ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。
感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。
文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-04T09:49:57Z) - ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations [6.360597788845826]
本研究では,現在最先端の大規模言語モデル (LLM) の体系的摂動データにおける攻撃的内容の同定における限界について検討する。
我々の研究は、検出メカニズムを回避するために使用される進化的戦術に対抗するために、攻撃言語検出におけるより高度な技術が緊急に必要であることを強調している。
論文 参考訳(メタデータ) (2024-06-18T02:44:56Z) - An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。