論文の概要: Continual-learning for Modelling Low-Resource Languages from Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05874v1
- Date: Fri, 09 Jan 2026 15:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.0169
- Title: Continual-learning for Modelling Low-Resource Languages from Large Language Models
- Title(参考訳): 大規模言語モデルからの低リソース言語モデリングのための連続学習
- Authors: Santosh Srinath K, Mudit Somani, Varun Reddy Padala, Prajna Devi Upadhyay, Abhijit Das,
- Abstract要約: 低リソース言語用に構築された小型言語モデル(SLM)は破滅的な忘れ込みの課題を招いている。
本研究では,POS(Part-of-speech)ベースのコードスイッチングを用いた継続的学習戦略を提案する。
視覚的質問応答や言語モデリングタスクなどの視覚言語タスクの実験は、提案したアーキテクチャの成功を示す。
- 参考スコア(独自算出の注目度): 1.462912591880424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modelling a language model for a multi-lingual scenario includes several potential challenges, among which catastrophic forgetting is the major challenge. For example, small language models (SLM) built for low-resource languages by adapting large language models (LLMs) pose the challenge of catastrophic forgetting. This work proposes to employ a continual learning strategy using parts-of-speech (POS)-based code-switching along with a replay adapter strategy to mitigate the identified gap of catastrophic forgetting while training SLM from LLM. Experiments conducted on vision language tasks such as visual question answering and language modelling task exhibits the success of the proposed architecture.
- Abstract(参考訳): 言語モデルを多言語シナリオでモデル化することは、いくつかの潜在的な課題を含む。
例えば、大規模な言語モデル(LLM)を適用することで、低リソース言語向けに構築されたSLM(Small Language Model)は、破滅的な忘れ込みの課題となる。
本研究では,パート・オブ・音声(POS)ベースのコードスイッチングとリプレイ・アダプタ・ストラテジーを用いて,LSMからSLMをトレーニングしながら,破滅的な忘れのギャップを緩和する継続的学習戦略を提案する。
視覚的質問応答や言語モデリングタスクといった視覚言語タスクの実験は、提案したアーキテクチャの成功を示す。
関連論文リスト
- Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文 参考訳(メタデータ) (2025-05-26T11:35:01Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。