論文の概要: ILT-Iterative LoRA Training through Focus-Feedback-Fix for Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2507.08477v1
- Date: Fri, 11 Jul 2025 10:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.326467
- Title: ILT-Iterative LoRA Training through Focus-Feedback-Fix for Multilingual Speech Recognition
- Title(参考訳): 多言語音声認識のためのFocus-Feedback-Fixを用いたILT-Iterative LoRAトレーニング
- Authors: Qingliang Meng, Hao Wu, Wei Liang, Wei Xu, Qing Zhao,
- Abstract要約: 本研究は,イテレーティブPseudo Labeling戦略と組み合わせたイテレーティブLoRAトレーニング(ILT)を提案する。
Whisper-large-v3とQwen2-Audioをベースとして、3段階のトレーニングプロセスであるフォーカストレーニング、フィードバックトレーニング、修正トレーニングを用いて体系的な実験を行う。
MegaAISの研究チームは、Interspeech 2025 Multilingual Conversational Speech Language Modeling Challenge (MLC-SLM)にこの手法を適用し、トラック1で4位、トラック2で1位を獲得した。
- 参考スコア(独自算出の注目度): 14.909498057247648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep integration of large language models and automatic speech recognition systems has become a promising research direction with high practical value. To address the overfitting issue commonly observed in Low-Rank Adaptation (LoRA) during the supervised fine-tuning (SFT) stage, this work proposes an innovative training paradigm Iterative LoRA Training (ILT) in combination with an Iterative Pseudo Labeling strategy, effectively enhancing the theoretical upper bound of model performance. Based on Whisper-large-v3 and Qwen2-Audio, we conduct systematic experiments using a three-stage training process: Focus Training, Feed Back Training, and Fix Training. Experimental results demonstrate the effectiveness of the proposed method. Furthermore, the MegaAIS research team applied this technique in the Interspeech 2025 Multilingual Conversational Speech Language Modeling Challenge (MLC-SLM), achieving 4th in Track 1 (Multilingual ASR Task) and 1st place in Track 2 (Speech Separation and Recognition Task), showcasing the practical feasibility and strong application potential of our approach.
- Abstract(参考訳): 大規模言語モデルと自動音声認識システムの深い統合は、実用価値の高い有望な研究方向となっている。
教師付き微調整(SFT)段階におけるローランド適応(LoRA)のオーバーフィッティング問題に対処するため,本研究では,イテレーティブな擬似ラベル戦略と組み合わせたイテレーティブなLoRAトレーニング(ILT)を提案し,モデル性能の理論的上限を効果的に向上させる。
Whisper-large-v3とQwen2-Audioをベースとして、3段階のトレーニングプロセスであるフォーカストレーニング、フィードバックトレーニング、修正トレーニングを用いて体系的な実験を行う。
実験の結果,提案手法の有効性が示された。
さらに,MegaAIS研究チームは,この手法をMLC-SLM(Interspeech 2025 Multilingual Conversational Speech Language Modeling Challenge)に応用し,トラック1(Multilingual ASR Task)で4位,トラック2(Speech separation and Recognition Task)で1位を獲得し,本手法の実用可能性と強力な適用可能性を示した。
関連論文リスト
- The Eloquence team submission for task 1 of MLC-SLM challenge [12.442720957990533]
MLC-SLM(Multiversual Conversational Speech Language Model)の課題1に向けて実施した研究と実験について述べる。
この課題は、言語モデルアーキテクチャの開発を通じて、多言語会話音声認識の進歩に焦点を当てる。
論文 参考訳(メタデータ) (2025-07-25T14:23:49Z) - Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge [24.966911190845817]
本稿では,MLC-SLM(Multi-Lingual Conversational Speech Language Modeling, MLC-SLM)チャレンジのタスク1に提案した3つの音声認識システムについて述べる。
本研究は,多言語対話シナリオにおける音声認識の精度を,革新的なエンコーダ・アダプタ・LLMアーキテクチャを用いて最適化することに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-23T07:48:33Z) - Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models [4.917936997225074]
MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-16T09:42:05Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [7.437128866333448]
異なる言語やタスクでトレーニングされたモデルを効率的に統合する新しいテクニックであるLoRS-Mergingを紹介する。
LoRS-Mergingは低ランクとスパースプルーニングを組み合わせることで、冗長なパラメータを排除しながら本質的な構造を維持する。
10言語にわたる実験の結果、LoRS-Mergingは多言語マルチタスクトレーニングよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-24T18:06:57Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。