論文の概要: Adapting Large Language Models to Low-Resource Tibetan: A Two-Stage Continual and Supervised Fine-Tuning Study
- arxiv url: http://arxiv.org/abs/2512.03976v1
- Date: Wed, 03 Dec 2025 17:06:51 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:06.472394
- Title: Adapting Large Language Models to Low-Resource Tibetan: A Two-Stage Continual and Supervised Fine-Tuning Study
- Title(参考訳): 低資源チベット語への大規模言語モデルの適用--2段階的・改良された微調整研究
- Authors: Lifeng Chen, Ryan Lai, Tianming Liu,
- Abstract要約: この研究は、形態学的に豊かで表現不足の言語であるチベット語に、Qwen2.5-3Bの2段階の適応を提示する。
チベットの言語基盤を確立するために,CPT(Continuous Pretraining)を使用し,タスクと翻訳にSFT(Supervised Fine-Tuning)を併用した。
- 参考スコア(独自算出の注目度): 5.4615141061033645
- License:
- Abstract: Adapting large language models (LLMs) to low-resource languages remains a major challenge due to data scarcity and cross-lingual drift. This work presents a two-stage adaptation of Qwen2.5-3B to Tibetan, a morphologically rich and underrepresented language. We employ Continual Pretraining (CPT) to establish Tibetan linguistic grounding, followed by Supervised Fine-Tuning (SFT) for task and translation specialization. Empirical evaluations demonstrate a consistent decrease in perplexity (from 2.98 $\rightarrow$ 1.54) and substantial improvements in Chinese$\rightarrow$Tibetan translation quality (BLEU: 0.046 $\rightarrow$ 0.261; chrF: 2.2 $\rightarrow$ 6.6). Layer-wise analysis across 435 layers in Qwen3-4B reveals that adaptation primarily concentrates on embedding and output heads, with mid--late MLP projections encoding domain-specific transformations. Our findings suggest that CPT constructs a Tibetan semantic manifold while SFT sharpens task alignment with minimal representational disruption. This study provides the first quantitative exploration of Tibetan adaptation dynamics for LLMs, and offers an open, reproducible framework for extending multilingual foundation models to low-resource settings.
- Abstract(参考訳): 大規模言語モデル(LLM)を低リソース言語に適応させることは、データの不足と言語間ドリフトによる大きな課題である。
この研究は、形態学的に豊かで表現不足の言語であるチベット語に、Qwen2.5-3Bの2段階の適応を提示する。
チベットの言語基盤を確立するために,継続事前訓練(Continuous Pretraining, CPT)を, タスクと翻訳の専門化のためにSFT(Supervised Fine-Tuning, Supervised Fine-Tuning)を併用した。
経験的評価は、難易度が一貫した低下(2.98$\rightarrow$ 1.54から)を示し、中国語$\rightarrow$Tibetan翻訳品質(BLEU:0.046$\rightarrow$ 0.261; chrF: 2.2$\rightarrow$ 6.6)を大幅に改善したことを示している。
Qwen3-4Bの435層にわたるレイヤーワイズ解析により、適応は主に埋め込みと出力ヘッドに集中しており、中後期のMLPプロジェクションはドメイン固有の変換をコードしていることが明らかになった。
以上の結果から,CPTはチベットのセマンティック多様体を構成し,SFTは最小の表現的破壊でタスクアライメントを鋭くすることがわかった。
本研究では,LLMのチベット適応力学を定量的に検討し,多言語基盤モデルを低リソース環境に拡張するためのオープンかつ再現可能なフレームワークを提供する。
関連論文リスト
- SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study [14.300310437948443]
本稿では,低リソース言語への翻訳を容易にするために,事前学習型言語モデルの利点と,セック2セックアーキテクチャの知識蒸留を活用するフレームワークについて検討する。
本フレームワークは,低リソースのIndic言語を4つのIndic-to-Indic方向で評価し,BLEU-4とchrFの改善を実現した。
論文 参考訳(メタデータ) (2024-07-09T04:19:52Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。