論文の概要: Decoding Machine Translationese in English-Chinese News: LLMs vs. NMTs
- arxiv url: http://arxiv.org/abs/2506.22050v1
- Date: Fri, 27 Jun 2025 09:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.155428
- Title: Decoding Machine Translationese in English-Chinese News: LLMs vs. NMTs
- Title(参考訳): 英語・中国語ニュースにおける機械翻訳の復号化: LLMs vs. NMTs
- Authors: Delu Kong, Lieve Macken,
- Abstract要約: 本研究では,機械翻訳出力の言語特性である機械翻訳(MTese)について検討する。
4つのサブコーパスからなる大規模データセットを構築し、包括的な5層特徴集合を用いる。
ニューラルネットワーク翻訳システム(NMT)とLarge Language Models(LLM)におけるMTeseの存在が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study explores Machine Translationese (MTese) -- the linguistic peculiarities of machine translation outputs -- focusing on the under-researched English-to-Chinese language pair in news texts. We construct a large dataset consisting of 4 sub-corpora and employ a comprehensive five-layer feature set. Then, a chi-square ranking algorithm is applied for feature selection in both classification and clustering tasks. Our findings confirm the presence of MTese in both Neural Machine Translation systems (NMTs) and Large Language Models (LLMs). Original Chinese texts are nearly perfectly distinguishable from both LLM and NMT outputs. Notable linguistic patterns in MT outputs are shorter sentence lengths and increased use of adversative conjunctions. Comparing LLMs and NMTs, we achieve approximately 70% classification accuracy, with LLMs exhibiting greater lexical diversity and NMTs using more brackets. Additionally, translation-specific LLMs show lower lexical diversity but higher usage of causal conjunctions compared to generic LLMs. Lastly, we find no significant differences between LLMs developed by Chinese firms and their foreign counterparts.
- Abstract(参考訳): 本研究は,機械翻訳出力の言語的特質である機械翻訳(MTese)について,ニューステキスト中の英語と中国語のペアについて考察する。
4つのサブコーパスからなる大規模データセットを構築し、包括的な5層特徴集合を用いる。
次に、分類タスクとクラスタリングタスクの両方の特徴選択にチ二乗格付けアルゴリズムを適用した。
本研究は,ニューラルネットワーク翻訳システム (NMT) とLarge Language Models (LLM) におけるMTeseの存在を確認した。
中国語の原文は LLM と NMT の出力とほぼ完全に区別できる。
MT出力における顕著な言語パターンは、短い文長と逆接続の使用の増加である。
LLM と NMT を比較し,約70% の分類精度を達成し,LLM はより語彙的多様性を示し,NMT はより多くのブラケットを用いた。
さらに、翻訳特異的なLLMは、レキシカルな多様性は低いが、一般的なLLMよりも因果的な結合がより多く使用される。
最後に、中国企業と外国企業によるLLMとでは、大きな違いは見つからない。
関連論文リスト
- Can Peter Pan Survive MT? A Stylometric Study of LLMs, NMTs, and HTs in Children's Literature Translation [0.0]
7つのヒト翻訳(HT)、7つの大言語モデル翻訳(LLM)、7つのニューラルマシン翻訳出力(NMT)からなるピーターパンコーパスを構築する。
この分析には、語彙的、構文的可読性、n-gram特徴を含む一般的な特徴セットと、反復、リズム、翻訳性、雑多なレベルをキャプチャーする創造的テキスト翻訳(CTT特化)機能セットがあり、合計447の言語的特徴をもたらす。
その結果,HTsとMTsは結合語分布と1-word-gram-Yi比に有意な差があることが判明した。
論文 参考訳(メタデータ) (2025-06-27T09:34:40Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages [2.53740603524637]
機械翻訳モデル(MT)は優れた多言語表現を生成し、低リソース言語でも強力な翻訳性能が得られる。
本研究は,MTエンコーダをサンプル効率のよい自己蒸留法により,言語バックボーンに直接組み込むことにより,両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持しており、低リソース言語は英語中心のLLMに埋め込まれた豊富な知識を取り入れることができる。
論文 参考訳(メタデータ) (2024-06-18T16:00:20Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - On-the-Fly Fusion of Large Language Models and Machine Translation [3.718665608549311]
我々は,同じタスクと入力に対して,LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
論文 参考訳(メタデータ) (2023-11-14T16:49:33Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。