論文の概要: Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.13580v1
- Date: Wed, 15 Oct 2025 14:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.700236
- Title: Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models
- Title(参考訳): 大規模言語モデルにおける未表現言語に対するスパースサブネットワークの強化
- Authors: Daniil Gurgurov, Josef van Genabith, Simon Ostermann,
- Abstract要約: 大規模な言語モデルは、言語間で不均一なパフォーマンスを示す。
表現不足言語におけるLLMの単言語機能向上のためのフレームワークを提案する。
言語活性化確率エントロピーを用いて言語特異的ニューロンを同定し,これらのニューロンに付随する重みのみを微細トンネルで同定する。
- 参考スコア(独自算出の注目度): 11.719190735841407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit uneven performance across languages, with substantial gaps between high- and low-resource languages. We present a framework for enhancing monolingual capabilities of LLMs in underrepresented languages while preserving their general-purpose performance through targeted fine-tuning of language-specific subnetworks. Our approach identifies language-specific neurons using Language Activation Probability Entropy and fine-tunes only the weights associated with these neurons, a dedicated subnetwork, on target-language data. Experiments on Llama-3.1-8B and Mistral-Nemo-12B across 12 mid- and low-resource languages demonstrate that our method consistently outperforms full fine-tuning, FFN-only fine-tuning, LoRA adaptation, and random subset fine-tuning baselines while efficiently updating only up to 1% of model parameters. Beyond performance improvements, we observe enhanced favorable training dynamics, cross-lingual representational alignment, and systematic weight update changes. To facilitate future research, we release language-specific neuron identifications for over 100 languages as well as our adaptation pipeline, offering a cost-effective pathway for adapting state-of-the-art models to underrepresented languages.
- Abstract(参考訳): 大規模な言語モデルは、ハイソース言語と低リソース言語の間に大きなギャップがあり、言語間で不均一なパフォーマンスを示す。
本稿では,言語固有のサブネットの微調整による汎用性能を維持しつつ,低表現言語におけるLLMの単言語機能向上のためのフレームワークを提案する。
本手法では,言語活性化確率エントロピーを用いて言語固有のニューロンを同定し,これらのニューロンに付随する重みのみを目標言語データ上に同定する。
Llama-3.1-8B と Mistral-Nemo-12B を12中・低リソース言語で実験した結果,提案手法はモデルパラメータの 1% を効率よく更新しつつ,完全な微調整,FFN のみの微調整,LoRA 適応,ランダムサブセットの微調整のベースラインを一貫して上回っていることがわかった。
性能改善の他に、強化されたトレーニングダイナミクス、言語間表現アライメント、体系的な重み更新の変更も観察する。
今後の研究を容易にするため,100以上の言語に対する言語固有のニューロン識別と適応パイプラインを公開し,非表現言語に最先端のモデルを適応するためのコスト効率の高い経路を提供する。
関連論文リスト
- Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Targeted Multilingual Adaptation for Low-resource Language Families [17.212424929235624]
我々は、事前学習されたモデルを言語族に適応させるためのベストプラクティスについて研究する。
適応モデルは単言語および多言語ベースラインを大きく上回る。
低リソース言語は、高リソース言語のパフォーマンスをほとんど犠牲にすることなく、トレーニング中に積極的にアップサンプリングできる。
論文 参考訳(メタデータ) (2024-05-20T23:38:06Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。