論文の概要: Bootstrapping Embeddings for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2603.01732v1
- Date: Mon, 02 Mar 2026 10:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.829719
- Title: Bootstrapping Embeddings for Low Resource Languages
- Title(参考訳): 低リソース言語のためのブートストラップ埋め込み
- Authors: Merve Basoz, Andrew Horne, Mattia Opper,
- Abstract要約: 埋め込みモデルは現代のNLPにとって不可欠である。
英語などの高リソース言語では、そのようなデータセットは容易に利用できる。
他の何百もの言語では、それらは存在しない。
- 参考スコア(独自算出の注目度): 0.6754597324022876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding models are crucial to modern NLP. However, the creation of the most effective models relies on carefully constructed supervised finetuning data. For high resource languages, such as English, such datasets are readily available. However, for hundreds of other languages, they are simply non-existent. We investigate whether the advent of large language models can help to bridge this gap. We test three different strategies for generating synthetic triplet data used to optimise embedding models. These include in-context learning as well as two novel approaches, leveraging adapter composition and cross lingual finetuning of the LLM generator (XL-LoRA) respectively. We find that while in-context learning still falls short of strong non-synthetic baselines, adapter composition and XL-LoRA yield strong performance gains across a wide array of tasks and languages, offering a clear, scalable pathway to producing performant embedding models for a wide variety of languages.
- Abstract(参考訳): 埋め込みモデルは現代のNLPにとって不可欠である。
しかし、最も効果的なモデルの作成は、注意深く構築された教師付き微調整データに依存している。
英語などの高リソース言語では、そのようなデータセットは容易に利用できる。
しかし、他の何百もの言語では、それらは存在しない。
大規模言語モデルの出現がこのギャップを埋めるのに役立つかどうかを考察する。
組込みモデルの最適化に使用される合成三重項データを生成するための3つの戦略を検証した。
これらには、LLMジェネレータ(XL-LoRA)のアダプタ合成と言語間微調整を利用する2つの新しいアプローチが含まれる。
テキスト内学習は依然として強力な非合成ベースラインを欠いているが、アダプタ構成とXL-LoRAは幅広いタスクや言語に対して強力な性能向上をもたらし、多種多様な言語に対して高性能な埋め込みモデルを生成するための明確でスケーラブルな経路を提供する。
関連論文リスト
- Better as Generators Than Classifiers: Leveraging LLMs and Synthetic Data for Low-Resource Multilingual Classification [9.202861681047315]
本研究は, 合成データ生成能力が蒸留の一形態として機能するかどうかを考察する。
我々は最先端の多言語LPMを用いて11言語と4つの分類タスクをカバーする合成データセットを生成する。
実験により、少量の合成データでさえ、より小さなモデルで大容量の発電機よりも優れた性能を発揮することが示されている。
論文 参考訳(メタデータ) (2026-01-22T19:19:13Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation [40.695782736177264]
Bactrian-Xは52言語にわたる340万の命令応答対の包括的な多言語並列データセットである。
大規模言語モデルとシームレスに統合可能な軽量なコンポーネントであるローランク適応(LoRA)を用いて,アダプタセットをトレーニングする。
様々な多言語評価設定の実験では、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-24T10:50:31Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。