論文の概要: Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models
- arxiv url: http://arxiv.org/abs/2505.17496v1
- Date: Fri, 23 May 2025 05:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.844647
- Title: Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models
- Title(参考訳): 音声言語モデルのエンド・ツー・エンドトレーニングにおけるカタストロフィック・フォーミングの緩和方略の分析
- Authors: Chi-Yuan Hsiao, Ke-Han Lu, Kai-Wei Chang, Chih-Kai Yang, Wei-Chih Chen, Hung-yi Lee,
- Abstract要約: 多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
- 参考スコア(独自算出の注目度): 79.90523648823522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end training of Spoken Language Models (SLMs) commonly involves adapting pre-trained text-based Large Language Models (LLMs) to the speech modality through multi-stage training on diverse tasks such as ASR, TTS and spoken question answering (SQA). Although this multi-stage continual learning equips LLMs with both speech understanding and generation capabilities, the substantial differences in task and data distributions across stages can lead to catastrophic forgetting, where previously acquired knowledge is lost. This paper investigates catastrophic forgetting and evaluates three mitigation strategies-model merging, discounting the LoRA scaling factor, and experience replay to balance knowledge retention with new learning. Results show that experience replay is the most effective, with further gains achieved by combining it with other methods. These findings provide insights for developing more robust and efficient SLM training pipelines.
- Abstract(参考訳): 音声言語モデル(SLM)のエンドツーエンドトレーニングは、一般的に、ASR、TS、音声質問応答(SQA)といった多様なタスクの多段階トレーニングを通じて、事前訓練されたテキストベース大規模言語モデル(LLM)を音声モダリティに適応させる。
この多段階連続学習は、音声理解と生成能力の両方にLLMを装備するが、タスクとデータ分布の段差は、これまで獲得した知識が失われていた破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデル統合, LoRAスケーリング係数の削減, 知識保持と新しい学習のバランスをとるための経験的リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
これらの知見は、より堅牢で効率的なSLMトレーニングパイプラインを開発するための洞察を与える。
関連論文リスト
- Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition [17.790383360652704]
数発のマルチモーダル対話意図認識のためのトレーニングには、2つの相互接続タスクが含まれる。
この現象は、トレーニング過程における重み行列更新の重畳による知識干渉に起因する。
本稿では,知識を解釈可能な規則に変換する知識分離型シナジー学習を提案する。
論文 参考訳(メタデータ) (2025-03-06T08:28:44Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。