論文の概要: Training Models on Dialects of Translationese Shows How Lexical Diversity and Source-Target Syntactic Similarity Shape Learning
- arxiv url: http://arxiv.org/abs/2602.16469v1
- Date: Wed, 18 Feb 2026 13:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.606046
- Title: Training Models on Dialects of Translationese Shows How Lexical Diversity and Source-Target Syntactic Similarity Shape Learning
- Title(参考訳): 語彙の多様性とソースターゲットの構文的類似性学習の学習方法を示す翻訳文辞書の学習モデル
- Authors: Jenny Kunz,
- Abstract要約: 機械翻訳データの学習が小英語モデルに与える影響について検討する。
我々は、24のタイポロジーおよびリソース多様性ソース言語から翻訳された英語のテキストでモデルを訓練する。
- 参考スコア(独自算出の注目度): 0.6599344783327054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-translated data is widely used in multilingual NLP, particularly when native text is scarce. However, translated text differs systematically from native text. This phenomenon is known as translationese, and it reflects both traces of the source language and characteristic properties of translation itself. In this paper, we study how training on machine-translated data affects small English language models, focusing on how translationese from different source languages shapes linguistic acceptability judgments and language modelling for different domains. We train models on English text translated from 24 typologically and resource-diverse source languages, enabling a systematic analysis of how source language and corpus properties influence what models learn. Our results show that the source language has a clear impact on model behavior: general perplexity is more driven by the lexical diversity of the translated corpus, while grammatical performance is strongly correlated to typological similarity to English, given enough data.
- Abstract(参考訳): 機械翻訳データは、特にネイティブテキストが不足している場合、多言語NLPで広く使われている。
しかし、翻訳されたテキストは、ネイティブテキストと体系的に異なる。
この現象は翻訳と呼ばれ、原語の痕跡と翻訳自体の特徴の両方を反映している。
本稿では,機械翻訳データの学習が英語の小さなモデルにどのように影響するかを考察し,異なる言語からの翻訳が言語受容性判断やドメインの言語モデリングにどのように影響するかに着目した。
タイポロジーおよび資源多様性のあるソース言語から翻訳された英語テキスト上でモデルを訓練し、ソース言語とコーパス特性がモデルがどのように学習に影響を与えるかの体系的な分析を可能にする。
一般的なパープレキシティは、翻訳されたコーパスの語彙的多様性によってより促進されるが、文法的性能は十分なデータから、英語の類型的類似性と強く相関している。
関連論文リスト
- Exploring Performance Variations in Finetuned Translators of Ultra-Low Resource Languages: Do Linguistic Differences Matter? [0.0]
少ないデータ量で事前訓練された言語モデルを微調整することは、超低リソース言語のためのトランスレータを作成するための一般的な方法である。
以前の研究では、同様の方法論とデータを用いてトランスレータを作成した場合、かなり異なるパフォーマンスが報告されている。
論文 参考訳(メタデータ) (2025-11-27T14:15:14Z) - Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics [56.145578792496714]
大規模言語モデル(LLM)は言語間知識伝達に苦慮している。
我々は,この現象の原因とダイナミクスを,合成多言語データセット上でスクラッチから小さなトランスフォーマーモデルを訓練することによって研究する。
論文 参考訳(メタデータ) (2025-08-14T18:44:13Z) - Information Loss in LLMs' Multilingual Translation: The Role of Training Data, Language Proximity, and Language Family [0.9422186097220215]
本研究は,多言語翻訳における学習データ,言語親和性,言語族が情報損失に与える影響を系統的に検討する。
GPT-4とLlama 2の2つの大言語モデルについて,ラウンドトリップ翻訳により評価した。
論文 参考訳(メタデータ) (2025-06-29T17:21:05Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。