論文の概要: Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models
- arxiv url: http://arxiv.org/abs/2604.06202v1
- Date: Fri, 13 Mar 2026 21:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.628019
- Title: Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models
- Title(参考訳): トルコ語族における言語間移動とパラメータ効率適応:低リソース言語モデルの理論的枠組み
- Authors: O. Ibrahimzade, K. Tabasaransky,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変換しているが、その能力は言語間で不均一である。
ほとんどの多言語モデルは、主に高リソース言語に基づいて訓練されており、訓練データと評価ベンチマークの両方において、多くの話者人口を持つ言語が不足している。
本稿では,トルコ語族における多言語LLMの多言語間移動とパラメータ効率適応に関する理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed natural language processing, yet their capabilities remain uneven across languages. Most multilingual models are trained primarily on high-resource languages, leaving many languages with large speaker populations underrepresented in both training data and evaluation benchmarks. This imbalance is particularly visible in the Turkic language family. This paper proposes a theoretical framework for studying cross-lingual transfer and parameter-efficient adaptation of multilingual LLMs within the Turkic language family, focusing on Azerbaijani, Kazakh, Uzbek, Turkmen, and Gagauz. These languages share substantial typological and morphological similarity while differing greatly in available digital resources, making them a natural setting for analyzing multilingual adaptation strategies. We integrate insights from multilingual representation learning and parameter-efficient fine-tuning techniques such as Low-Rank Adaptation (LoRA) to develop a conceptual scaling model describing how adaptation performance depends on model capacity, adaptation data size, and the expressivity of adaptation modules. To formalize transfer potential between related languages, we introduce the Turkic Transfer Coefficient (TTC), a theoretical measure incorporating morphological similarity, lexical overlap, syntactic structure, and script compatibility across Turkic languages. The framework highlights how typological similarity can enable efficient multilingual transfer while also identifying structural limits of parameter-efficient adaptation in extremely low-resource scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変換しているが、その能力は言語間で不均一である。
ほとんどの多言語モデルは、主に高リソース言語で訓練されており、訓練データと評価ベンチマークの両方において、多くの話者人口を持つ言語が不足している。
この不均衡は特にテュルク語族で顕著である。
本稿では,アゼルバイジャン語,カザフ語,ウズベク語,トルクメン語,ガガウズ語を中心に,トルコ語族における多言語LLMの言語間移動とパラメータ効率適応に関する理論的枠組みを提案する。
これらの言語は、利用可能なデジタルリソースと大きく異なるものの、類型的および形態的類似性を共有しており、多言語適応戦略を解析するための自然な設定となっている。
多言語表現学習とLoRA(Lo-Rank Adaptation)のようなパラメータ効率の高い微調整手法の知見を統合し,適応性能がモデルキャパシティ,適応データサイズ,適応モジュールの表現性にどのように依存するかを記述する概念的スケーリングモデルを開発する。
関係言語間の伝達ポテンシャルを形式化するために,形態的類似性,語彙的重複,構文的構造,およびトルコ語間のスクリプト互換性を組み込んだ理論的尺度であるTrkic Transfer Coefficient(TTC)を導入する。
このフレームワークは, 非常に低リソースシナリオにおけるパラメータ効率適応の構造的限界を識別しながら, マルチリンガル移動を効果的に行うためのタイプロジカル類似性を強調している。
関連論文リスト
- Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights [5.014897572890602]
LLM(Large Language Models)は、低リソース言語での性能に制限があるため、英語に重点を置いている。
モデルマージは,低リソース言語に対する従来の適応手法に代わる,実用的で効率的な代替手段であることを示す。
論文 参考訳(メタデータ) (2026-03-30T10:46:50Z) - Typologically-Informed Candidate Reranking for LLM-based Translation into Low-Resource Languages [1.0732935873226022]
高資源言語で主に訓練された大規模な言語モデルは、支配的な類型パターンに対する体系的なバイアスを示す。
パラレルトレーニングデータやモデル再訓練を使わずに,言語型学を活用して翻訳品質を向上させるフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:22:30Z) - Analyzing and Improving Cross-lingual Knowledge Transfer for Machine Translation [5.878901309908815]
ニューラルモデルにおける言語間知識伝達について検討し,多言語環境におけるロバストネスと一般化を改善する手法を開発した。
学習中の言語多様性の役割について検討し,翻訳範囲の増加が一般化を改善し,目標外行動を低減することを示す。
論文 参考訳(メタデータ) (2026-01-07T15:51:54Z) - Cross-Linguistic Transfer in Multilingual NLP: The Role of Language Families and Morphology [0.0]
言語間移動は多言語NLPの重要な側面となっている。
本稿では,言語科と形態学のレンズによる言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-20T04:19:34Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Targeted Multilingual Adaptation for Low-resource Language Families [17.212424929235624]
我々は、事前学習されたモデルを言語族に適応させるためのベストプラクティスについて研究する。
適応モデルは単言語および多言語ベースラインを大きく上回る。
低リソース言語は、高リソース言語のパフォーマンスをほとんど犠牲にすることなく、トレーニング中に積極的にアップサンプリングできる。
論文 参考訳(メタデータ) (2024-05-20T23:38:06Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。