論文の概要: The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2601.00364v1
- Date: Thu, 01 Jan 2026 14:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.402006
- Title: The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining
- Title(参考訳): 多言語大言語モデル事前学習における混合言語文書の役割
- Authors: Jiandong Shao, Raphael Tang, Crystina Zhang, Karin Sevegnani, Pontus Stenetorp, Jianfei Yang, Yao Lu,
- Abstract要約: 標準的なWebコーパスとモノリンガルのみのバージョンを比較し、すべてのマルチリンガル文書を削除します。
意味的関連性に基づき,バイリンガルデータを並列(14%),コードスイッチング(72%),雑多な文書(14%)に分類した。
並列データがほぼ完全に変換性能を回復するのに対して、コードスイッチングは最小限に寄与する。
- 参考スコア(独自算出の注目度): 29.376308590290297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual large language models achieve impressive cross-lingual performance despite largely monolingual pretraining. While bilingual data in pretraining corpora is widely believed to enable these abilities, details of its contributions remain unclear. We investigate this question by pretraining models from scratch under controlled conditions, comparing the standard web corpus with a monolingual-only version that removes all multilingual documents. Despite constituting only 2% of the corpus, removing bilingual data causes translation performance to drop 56% in BLEU, while behaviour on cross-lingual QA and general reasoning tasks remains stable, with training curves largely overlapping the baseline. To understand this asymmetry, we categorize bilingual data into parallel (14%), code-switching (72%), and miscellaneous documents (14%) based on the semantic relevance of content in different languages. We then conduct granular ablations by reintroducing parallel or code-switching data into the monolingual-only corpus. Our experiments reveal that parallel data almost fully restores translation performance (91% of the unfiltered baseline), whereas code-switching contributes minimally. Other cross-lingual tasks remain largely unaffected by either type. These findings reveal that translation critically depends on systematic token-level alignments from parallel data, whereas cross-lingual understanding and reasoning appear to be achievable even without bilingual data.
- Abstract(参考訳): 多言語大言語モデルは、大半が単言語事前学習にもかかわらず、印象的な言語間性能を達成する。
プレトレーニングコーパスにおけるバイリンガルデータは、これらの能力を可能にすると広く信じられているが、その貢献の詳細は明らかになっていない。
制御条件下でモデルをスクラッチから事前学習し、標準ウェブコーパスをモノリンガルのみのバージョンと比較し、すべてのマルチリンガル文書を削除した。
コーパスのわずか2%を構成するにもかかわらず、バイリンガルデータの除去はBLEUの翻訳性能を56%低下させ、一方、言語横断QAおよび一般的な推論タスクの動作は安定であり、トレーニング曲線はベースラインのほぼ重複している。
この非対称性を理解するために、異なる言語のコンテンツの意味的関連性に基づいて、バイリンガルデータを並列(14%)、コードスイッチ(72%)、雑多な文書(14%)に分類する。
次に、並列またはコードスイッチングデータをモノリンガルのみのコーパスに再導入することで、粒度の改善を行う。
並列データが翻訳性能をほぼ完全に回復する(フィルタされていないベースラインの91%)のに対して、コードスイッチングは最小限に寄与する。
他の言語間のタスクは、どちらのタイプも影響を受けないままである。
これらの結果から,翻訳は並列データからのトークンレベルの体系的アライメントに大きく依存するが,言語間理解や推論はバイリンガルデータなしでも達成可能であることが示唆された。
関連論文リスト
- Revisiting Multilingual Data Mixtures in Language Model Pretraining [20.282622416939997]
大規模言語モデルの事前学習における多言語データ混合の影響について検討する。
英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。
トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
論文 参考訳(メタデータ) (2025-10-29T20:46:03Z) - Assessing the Role of Data Quality in Training Bilingual Language Models [17.603371705571107]
データ量だけでなく不平等なデータ品質も、バイリンガル設定のパフォーマンス劣化の主要な要因であることを示す。
本稿では,高品質な英語データのみを用いて,高品質なバイリンガル学習データを選択するための簡易かつ効果的なデータフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T21:08:51Z) - Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment [50.80949663719335]
多言語文エンコーダ(MSE)は、多言語言語モデルを訓練し、異なる言語からの文を共有意味空間にマッピングすることで一般的に得られる。
MSEは、パラメータ共有による単言語表現精度の喪失である多言語性の呪いを受ける。
我々は、異なる言語間タスクの矛盾する要求を解決するために、2つの異なるタイプのデータで言語間アダプタを訓練する。
論文 参考訳(メタデータ) (2024-07-20T13:56:39Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。