論文の概要: Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.13044v1
- Date: Mon, 16 Jun 2025 02:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.315638
- Title: Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models
- Title(参考訳): Just Go Parallel: 大規模言語モデルの多言語機能の改善
- Authors: Muhammad Reza Qorib, Junyi Li, Hwee Tou Ng,
- Abstract要約: 大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。
近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。
多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
- 参考スコア(独自算出の注目度): 59.21082876068122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive translation capabilities even without being explicitly trained on parallel data. This remarkable property has led some to believe that parallel data is no longer necessary for building multilingual language models. While some attribute this to the emergent abilities of LLMs due to scale, recent work suggests that it is actually caused by incidental bilingual signals present in the training data. Various methods have been proposed to maximize the utility of parallel data to enhance the multilingual capabilities of multilingual encoder-based and encoder-decoder language models. However, some decoder-based LLMs opt to ignore parallel data instead. In this work, we conduct a systematic study on the impact of adding parallel data on LLMs' multilingual capabilities, focusing specifically on translation and multilingual common-sense reasoning. Through controlled experiments, we demonstrate that parallel data can significantly improve LLMs' multilingual capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。
この顕著な性質は、並列データが多言語言語モデルを構築するのにもはや必要ないと信じている者もいる。
大規模化によるLDMの創発的能力に起因していると考える向きもあるが、最近の研究は、トレーニングデータに付随するバイリンガル信号によって引き起こされていることを示唆している。
多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
しかし、一部のデコーダベースのLLMは、代わりに並列データを無視する。
本研究では,LLMの多言語機能に対する並列データ追加の影響に関する系統的研究を行い,翻訳と多言語共通意味推論に着目した。
制御された実験により、並列データによりLLMの多言語機能を大幅に改善できることが実証された。
関連論文リスト
- From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [85.44082712798553]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - Investigating the Effect of Parallel Data in the Cross-Lingual Transfer for Vision-Language Encoders [0.0]
トレーニング済みのVision-Language(VL)モデルと下流タスクのトレーニングデータは英語でのみ利用可能である。
並列データを用いて、すでに訓練済みのエンコーダを転送する。
その結果,機械翻訳されたタスクデータでさえ,平均的,キャプション的,真に並列なデータの方が,いくつかの言語で優れていたことが判明した。
論文 参考訳(メタデータ) (2025-04-30T14:19:15Z) - MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment [48.03702722532143]
MEXAは、英語中心の大規模言語モデルの多言語能力を評価する方法である。
MEXAは並列文を用いて英語と非英語のアライメントを計算する。
このアライメントは、異なる言語でのモデルパフォーマンスを推定するために使用することができる。
論文 参考訳(メタデータ) (2024-10-08T09:59:23Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。