論文の概要: Decoding Machine Translationese in English-Chinese News: LLMs vs. NMTs
- arxiv url: http://arxiv.org/abs/2506.22050v1
- Date: Fri, 27 Jun 2025 09:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.155428
- Title: Decoding Machine Translationese in English-Chinese News: LLMs vs. NMTs
- Title(参考訳): 英語・中国語ニュースにおける機械翻訳の復号化: LLMs vs. NMTs
- Authors: Delu Kong, Lieve Macken,
- Abstract要約: 本研究では,機械翻訳出力の言語特性である機械翻訳(MTese)について検討する。
4つのサブコーパスからなる大規模データセットを構築し、包括的な5層特徴集合を用いる。
ニューラルネットワーク翻訳システム(NMT)とLarge Language Models(LLM)におけるMTeseの存在が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study explores Machine Translationese (MTese) -- the linguistic peculiarities of machine translation outputs -- focusing on the under-researched English-to-Chinese language pair in news texts. We construct a large dataset consisting of 4 sub-corpora and employ a comprehensive five-layer feature set. Then, a chi-square ranking algorithm is applied for feature selection in both classification and clustering tasks. Our findings confirm the presence of MTese in both Neural Machine Translation systems (NMTs) and Large Language Models (LLMs). Original Chinese texts are nearly perfectly distinguishable from both LLM and NMT outputs. Notable linguistic patterns in MT outputs are shorter sentence lengths and increased use of adversative conjunctions. Comparing LLMs and NMTs, we achieve approximately 70% classification accuracy, with LLMs exhibiting greater lexical diversity and NMTs using more brackets. Additionally, translation-specific LLMs show lower lexical diversity but higher usage of causal conjunctions compared to generic LLMs. Lastly, we find no significant differences between LLMs developed by Chinese firms and their foreign counterparts.
- Abstract(参考訳): 本研究は,機械翻訳出力の言語的特質である機械翻訳(MTese)について,ニューステキスト中の英語と中国語のペアについて考察する。
4つのサブコーパスからなる大規模データセットを構築し、包括的な5層特徴集合を用いる。
次に、分類タスクとクラスタリングタスクの両方の特徴選択にチ二乗格付けアルゴリズムを適用した。
本研究は,ニューラルネットワーク翻訳システム (NMT) とLarge Language Models (LLM) におけるMTeseの存在を確認した。
中国語の原文は LLM と NMT の出力とほぼ完全に区別できる。
MT出力における顕著な言語パターンは、短い文長と逆接続の使用の増加である。
LLM と NMT を比較し,約70% の分類精度を達成し,LLM はより語彙的多様性を示し,NMT はより多くのブラケットを用いた。
さらに、翻訳特異的なLLMは、レキシカルな多様性は低いが、一般的なLLMよりも因果的な結合がより多く使用される。
最後に、中国企業と外国企業によるLLMとでは、大きな違いは見つからない。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - On-the-Fly Fusion of Large Language Models and Machine Translation [3.718665608549311]
我々は,同じタスクと入力に対して,LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
論文 参考訳(メタデータ) (2023-11-14T16:49:33Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。