Fugu-MT 論文翻訳(概要): Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

論文の概要: Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

arxiv url: http://arxiv.org/abs/2408.10680v1
Date: Tue, 20 Aug 2024 09:31:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:24:42.785999
Title: Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper
Title（参考訳）: リハーサルなし多言語ASRに向けて: LoRA を用いたウィスパーのケーススタディ
Authors: Tianyi Xu, Kaixun Huang, Pengcheng Guo, Yu Zhou, Longtao Huang, Hui Xue, Lei Xie,
Abstract要約: 本研究は,学習データがない場合の新たな言語モデルを強化するための戦略について検討する。中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。
参考スコア（独自算出の注目度）: 21.656923341138103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained multilingual speech foundation models, like Whisper, have shown impressive performance across different languages. However, adapting these models to new or specific languages is computationally extensive and faces catastrophic forgetting problems. Addressing these issues, our study investigates strategies to enhance the model on new languages in the absence of original training data, while also preserving the established performance on the original languages. Specifically, we first compare various LoRA-based methods to find out their vulnerability to forgetting. To mitigate this issue, we propose to leverage the LoRA parameters from the original model for approximate orthogonal gradient descent on the new samples. Additionally, we also introduce a learnable rank coefficient to allocate trainable parameters for more efficient training. Our experiments with a Chinese Whisper model (for Uyghur and Tibetan) yield better results with a more compact parameter set.
Abstract（参考訳）: Whisperのような事前訓練された多言語音声基礎モデルは、様々な言語で素晴らしいパフォーマンスを示している。しかし、これらのモデルを新しい言語や特定の言語に適用することは、計算的に広範であり、破滅的な忘れの問題に直面している。これらの課題に対処するため,本研究では,オリジナルトレーニングデータがない場合の新たな言語モデルを強化するための戦略を検討するとともに,オリジナル言語の確立した性能を保ちながら,新しい言語モデルを強化する戦略を検討する。具体的には、まずLoRAベースの様々な手法を比較して、その脆弱性を忘れることを見つける。この問題を軽減するため,本論文では,元のモデルからのLoRAパラメータを近似直交勾配勾配に利用することを提案する。さらに、より効率的なトレーニングのためにトレーニング可能なパラメータを割り当てるための学習可能なランク係数も導入する。中国のウイスパーモデル(ウイグル語とチベット語)による実験では、よりコンパクトなパラメータセットでより良い結果が得られる。

関連論文リスト

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。 52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文参考訳（メタデータ） (2024-11-27T18:14:38Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文参考訳（メタデータ） (2024-05-02T03:11:59Z)
Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文参考訳（メタデータ） (2023-10-24T23:29:06Z)
A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文参考訳（メタデータ） (2023-04-17T09:36:36Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。 NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文参考訳（メタデータ） (2022-11-09T18:53:59Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。 9つの下流タスクの実験は、いくつかの反直観的な現象を示している。モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文参考訳（メタデータ） (2022-04-06T06:29:52Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文参考訳（メタデータ） (2020-04-29T14:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。