論文の概要: From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
- arxiv url: http://arxiv.org/abs/2505.14045v1
- Date: Tue, 20 May 2025 07:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.870574
- Title: From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
- Title(参考訳): Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
- Authors: Yingli Shen, Wen Lai, Shuo Wang, Kangyang Luo, Alexander Fraser, Maosong Sun,
- Abstract要約: TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 85.44082712798553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continued pretraining and instruction tuning on large-scale multilingual data have proven to be effective in scaling large language models (LLMs) to low-resource languages. However, the unaligned nature of such data limits its ability to effectively capture cross-lingual semantics. In contrast, multi-way parallel data, where identical content is aligned across multiple languages, provides stronger cross-lingual consistency and offers greater potential for improving multilingual performance. In this paper, we introduce a large-scale, high-quality multi-way parallel corpus, TED2025, based on TED Talks. The corpus spans 113 languages, with up to 50 languages aligned in parallel, ensuring extensive multilingual coverage. Using this dataset, we investigate best practices for leveraging multi-way parallel data to enhance LLMs, including strategies for continued pretraining, instruction tuning, and the analysis of key influencing factors. Experiments on six multilingual benchmarks show that models trained on multiway parallel data consistently outperform those trained on unaligned multilingual data.
- Abstract(参考訳): 大規模多言語データに対する事前学習と命令チューニングは,大規模言語モデル(LLM)を低リソース言語に拡張するのに有効であることが証明されている。
しかし、そのようなデータの非整合性は、言語間セマンティクスを効果的にキャプチャする能力を制限する。
対照的に、同一のコンテンツが複数の言語にまたがるマルチウェイ並列データは、より強力な言語間一貫性を提供し、マルチランガル性能を改善するための大きな可能性を提供する。
本稿では,TED Talksに基づく大規模かつ高品質なマルチウェイ並列コーパスTED2025を提案する。
コーパスは113の言語にまたがっており、最大50の言語が並列に並び、多言語をカバーしている。
本データセットを用いて,複数経路並列データを利用したLCMの強化手法について検討した。
6つのマルチリンガルベンチマークの実験では、マルチウェイ並列データでトレーニングされたモデルは、アンアラインなマルチリンガルデータでトレーニングされたモデルよりも一貫して優れていた。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。