論文の概要: Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining
- arxiv url: http://arxiv.org/abs/2604.17633v1
- Date: Sun, 19 Apr 2026 22:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.613998
- Title: Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining
- Title(参考訳): Copy First, Translate: Multilingual Pretrainingにおける翻訳ダイナミクスの解釈
- Authors: Felicia Körner, Maria Matveev, Florian Eichin, Gitta Kutyniok, Barbara Plank, Michael A. Hedderich,
- Abstract要約: 多言語1.7Bモデルにおける言語・翻訳能力の早期軌跡について検討する。
このモデルでは,トークンレベルの複写と並行して,基本言語能力の獲得が急速に進んでいる。
翻訳は, 複写と表面レベルの類似性に支配される初期相と, より一般化された翻訳機構が発達する第2相の2つの相で進行することがわかった。
- 参考スコア(独自算出の注目度): 45.58977551849636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit impressive cross-lingual capabilities. However, prior work analyzes this phenomenon through isolated factors and at sparse points during training, limiting our understanding of how cross-lingual generalization emerges--particularly in the early phases of learning. To study the early trajectory of linguistic and translation capabilities, we pretrain a multilingual 1.7B model on nine diverse languages, capturing checkpoints at a much finer granularity. We further introduce a novel word-level translation dataset and trace how translation develops over training through behavioral analyses, model-component analysis, and parameter-based ablations. We find that the model quickly acquires basic linguistic capabilities in parallel with token-level copying, while translation develops in two distinct phases: an initial phase dominated by copying and surface-level similarities, and a second phase in which more generalizing translation mechanisms are developed while copying is refined. Together, these findings provide a fine-grained view of how cross-lingual generalization develops during multilingual pretraining.
- Abstract(参考訳): 大きな言語モデルは印象的な言語間機能を示します。
しかし、事前の研究は、この現象を独立した要因と訓練中のスパースポイントを通して分析し、特に学習の初期段階において、言語間の一般化がどのように現れるかの理解を制限する。
言語と翻訳能力の初期の軌跡を研究するため,9つの多言語言語で1.7Bモデルを事前学習し,より微細な粒度でチェックポイントを捕捉する。
さらに、新しい単語レベルの翻訳データセットを導入し、行動分析、モデル成分分析、パラメータベースのアブレーションを通じて、翻訳が学習によってどのように発達するかをトレースする。
本モデルでは, トークンレベルの複写と平行して基本言語能力を得るのに対し, 翻訳は, 複写と表面レベルの類似性に支配される初期フェーズと, 複写を洗練しながらより一般化された翻訳機構を発達させる第2フェーズの2つの相で発達する。
これらの知見は、多言語事前学習において、言語間一般化がどのように発達するかを詳細に示すものである。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons [20.13484267765109]
事前学習中に多言語言語モデルがどのように進化するかを考察する。
我々は、各層にまたがる一様言語識別機能から、より特殊な層関数への遷移を観察する。
言語間の同じ概念に対する信頼性の高い予測因子として出現する特定のニューロンを同定する。
論文 参考訳(メタデータ) (2025-06-02T13:06:30Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。