論文の概要: BYOL: Bring Your Own Language Into LLMs
- arxiv url: http://arxiv.org/abs/2601.10804v1
- Date: Thu, 15 Jan 2026 19:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.267251
- Title: BYOL: Bring Your Own Language Into LLMs
- Title(参考訳): BYOL: 自分の言語をLLMに組み込む
- Authors: Syed Waqas Zamir, Wassim Hamidouche, Boulbaba Ben Amor, Luana Marotti, Inbal Becker-Reshef, Juan Lavista Ferres,
- Abstract要約: 大規模言語モデル(LLM)は、多言語機能を示すが、グローバル言語リソースの深刻な不均衡によって制約される。
この格差は、体系的なアンパフォーマンス、文化的不整合、低リソース言語と極低リソース言語の話者へのアクセシビリティの制限につながる。
bring Your Own Language (BYOL)は、各言語のデジタルフットプリントに合わせて、スケーラブルで言語対応のLLM開発のための統合フレームワークである。
- 参考スコア(独自算出の注目度): 12.151176703151428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit strong multilingual capabilities, yet remain fundamentally constrained by the severe imbalance in global language resources. While over 7,000 languages are spoken worldwide, only a small subset (fewer than 100) has sufficient digital presence to meaningfully influence modern LLM training. This disparity leads to systematic underperformance, cultural misalignment, and limited accessibility for speakers of low-resource and extreme-low-resource languages. To address this gap, we introduce Bring Your Own Language (BYOL), a unified framework for scalable, language-aware LLM development tailored to each language's digital footprint. BYOL begins with a language resource classification that maps languages into four tiers (Extreme-Low, Low, Mid, High) using curated web-scale corpora, and uses this classification to select the appropriate integration pathway. For low-resource languages, we propose a full-stack data refinement and expansion pipeline that combines corpus cleaning, synthetic text generation, continual pretraining, and supervised finetuning. Applied to Chichewa and Maori, this pipeline yields language-specific LLMs that achieve approximately 12 percent average improvement over strong multilingual baselines across 12 benchmarks, while preserving English and multilingual capabilities via weight-space model merging. For extreme-low-resource languages, we introduce a translation-mediated inclusion pathway, and show on Inuktitut that a tailored machine translation system improves over a commercial baseline by 4 BLEU, enabling high-accuracy LLM access when direct language modeling is infeasible. Finally, we release human-translated versions of the Global MMLU-Lite benchmark in Chichewa, Maori, and Inuktitut, and make our codebase and models publicly available at https://github.com/microsoft/byol .
- Abstract(参考訳): 大規模言語モデル(LLM)は、多言語機能を示すが、グローバル言語リソースの深刻な不均衡により、根本的な制約が残されている。
世界中で7000以上の言語が話されているが、現代のLLMトレーニングに意味のある影響を与えるのに十分なデジタルプレゼンスを持つのは、100歳未満の小さなサブセットのみである。
この格差は、体系的なアンパフォーマンス、文化的不整合、低リソース言語と極低リソース言語の話者へのアクセシビリティの制限につながる。
このギャップに対処するために、我々は、各言語のデジタルフットプリントに合わせて、スケーラブルで言語対応のLLM開発のための統合フレームワークであるBring Your Own Language (BYOL)を紹介します。
BYOLは言語リソースの分類から始まり、キュレートされたWebスケールコーパスを使用して言語を4層(Extreme-Low, Low, Mid, High)にマッピングし、この分類を使用して適切な統合経路を選択する。
低リソース言語に対しては、コーパスクリーニング、合成テキスト生成、継続事前学習、教師付き微調整を組み合わせたフルスタックデータ洗練拡張パイプラインを提案する。
ChichewaとMaoriに応用すると、このパイプラインは言語固有のLLMを生成し、12のベンチマークで強い多言語ベースラインよりも平均12%向上すると同時に、重み空間モデルマージによる英語と多言語機能を保存する。
Inuktitutでは,高度に低リソースな言語に対して,翻訳による包含経路を導入し,適応された機械翻訳システムが商業ベースラインを4 BLEUで改善し,直接言語モデリングが実現できない場合に,高精度なLLMアクセスを可能にすることを示す。
最後に、我々はChichewa、Maori、InuktitutでGlobal MMLU-Liteベンチマークの人訳バージョンをリリースし、コードベースとモデルをhttps://github.com/microsoft/byol.orgで公開しました。
関連論文リスト
- Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers [80.69714909319842]
$texttBabel$はオープンな多言語LLMで、話者数のトップ25言語をカバーする。
世界の人口の90%以上をサポートし、他のオープンな多言語LLMによって無視される多くの言語を含んでいる。
論文 参考訳(メタデータ) (2025-03-02T11:53:55Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Teaching Large Language Models an Unseen Language on the Fly [32.83773919852362]
In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。
辞書と5Kパラレル文のみを用いて、DiPMT++は中国語から中国語への翻訳において、0から16BLEUまでのGPT-4の性能を大幅に向上させる。
また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:50:47Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。