論文の概要: Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates
- arxiv url: http://arxiv.org/abs/2512.04844v1
- Date: Thu, 04 Dec 2025 14:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.217869
- Title: Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates
- Title(参考訳): ソースシールド更新によるLLMのターゲット言語適応におけるカタストロフィック・フォーミングの緩和
- Authors: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras,
- Abstract要約: 本稿では,ソース知識を積極的に保存するパラメータ更新戦略である Source-Shielded Updates (SSU) を紹介する。
SSUは破滅的な忘れを和らげることに成功した。
モノリンガルソースタスクのパフォーマンス劣化を平均で3.4% (7B) と2.8% (13B) に減らし、フル微調整の20.3%と22.3%とは対照的である。
- 参考スコア(独自算出の注目度): 36.05883134265614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expanding the linguistic diversity of instruct large language models (LLMs) is crucial for global accessibility but is often hindered by the reliance on costly specialized target language labeled data and catastrophic forgetting during adaptation. We tackle this challenge under a realistic, low-resource constraint: adapting instruct LLMs using only unlabeled target language data. We introduce Source-Shielded Updates (SSU), a selective parameter update strategy that proactively preserves source knowledge. Using a small set of source data and a parameter importance scoring method, SSU identifies parameters critical to maintaining source abilities. It then applies a column-wise freezing strategy to protect these parameters before adaptation. Experiments across five typologically diverse languages and 7B and 13B models demonstrate that SSU successfully mitigates catastrophic forgetting. It reduces performance degradation on monolingual source tasks to just 3.4% (7B) and 2.8% (13B) on average, a stark contrast to the 20.3% and 22.3% from full fine-tuning. SSU also achieves target-language performance highly competitive with full fine-tuning, outperforming it on all benchmarks for 7B models and the majority for 13B models.
- Abstract(参考訳): 命令型大規模言語モデル(LLM)の言語多様性の拡大は、グローバルなアクセシビリティにとって重要であるが、コストがかかる特定のターゲット言語ラベル付きデータへの依存や、適応中の破滅的な忘れ込みによって、しばしば妨げられる。
我々はこの課題に,ラベルなしのターゲット言語データのみを用いて命令LDMを適用するという,現実的で低リソースな制約の下で対処する。
本稿では,ソース知識を積極的に保存するパラメータ更新戦略である Source-Shielded Updates (SSU) を紹介する。
ソースデータの小さなセットとパラメータ重要度スコアリング手法を用いて、SSUはソース能力の維持に不可欠なパラメータを識別する。
そして、適応する前にこれらのパラメータを保護するためにカラムワイズフリーズ戦略を適用します。
5つのタイプ的多様言語と7Bおよび13Bモデルにわたる実験により、SSUは破滅的な忘れを緩和することに成功した。
モノリンガルソースタスクのパフォーマンス劣化を平均で3.4% (7B) と2.8% (13B) に減らし、フル微調整の20.3%と22.3%とは対照的である。
SSUはまた、ターゲット言語のパフォーマンスを、完全な微調整と高い競争力で達成し、7Bモデルのすべてのベンチマークで、そして13Bモデルの多数で、パフォーマンスを上回ります。
関連論文リスト
- Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages [11.808922632545874]
我々は多言語自動音声認識モデルを分析し、U字型適応パターンを明らかにする。
本稿では,各レイヤの役割に応じて適応能力を割り当てる,深層対応モデル適応フレームワークDAMAを提案する。
Damaは、最先端の精度とトレーニング可能なパラメータを80%削減し、極端なデータ不足下で29%のエラー削減を実現し、ベースラインよりもメモリ、トレーニング時間、計算効率を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-01T04:18:31Z) - Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。