論文の概要: Selective Attention Merging for low resource tasks: A case study of Child ASR
- arxiv url: http://arxiv.org/abs/2501.08468v1
- Date: Tue, 14 Jan 2025 22:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:54.156510
- Title: Selective Attention Merging for low resource tasks: A case study of Child ASR
- Title(参考訳): 低資源作業のための選択的注意統合:児童ASRを事例として
- Authors: Natarajan Balaji Shankar, Zilai Wang, Eray Eren, Abeer Alwan,
- Abstract要約: 音声基礎モデル(SFM)は様々な音声タスクに優れるが、低リソースタスクのパフォーマンスは、限られた事前学習データによって妨げられる。
本稿では,Selective Attention (SA) Mergeというタスクベクトルを選択的にマージし,低リソースタスクにおけるSFM性能を向上させる手法を提案する。
MySTデータベース上での実験では、単語の単語誤り率を最大14%削減し、既存のモデルのマージやデータ拡張技術よりも優れていた。
- 参考スコア(独自算出の注目度): 14.178224954581069
- License:
- Abstract: While Speech Foundation Models (SFMs) excel in various speech tasks, their performance for low-resource tasks such as child Automatic Speech Recognition (ASR) is hampered by limited pretraining data. To address this, we explore different model merging techniques to leverage knowledge from models trained on larger, more diverse speech corpora. This paper also introduces Selective Attention (SA) Merge, a novel method that selectively merges task vectors from attention matrices to enhance SFM performance on low-resource tasks. Experiments on the MyST database show significant reductions in relative word error rate of up to 14%, outperforming existing model merging and data augmentation techniques. By combining data augmentation techniques with SA Merge, we achieve a new state-of-the-art WER of 8.69 on the MyST database for the Whisper-small model, highlighting the potential of SA Merge for improving low-resource ASR.
- Abstract(参考訳): 音声基礎モデル(SFM)は様々な音声タスクに優れるが、子どもの自動音声認識(ASR)のような低リソースタスクのパフォーマンスは、限られた事前学習データによって妨げられる。
これを解決するために、より大きく多様な音声コーパスで訓練されたモデルからの知識を活用するために、異なるモデルマージ手法を検討する。
Selective Attention (SA) Mergeは、低リソースタスクにおけるSFM性能を向上させるために、注目行列からタスクベクトルを選択的にマージする手法である。
MySTデータベース上での実験では、単語の単語誤り率を最大14%削減し、既存のモデルのマージやデータ拡張技術よりも優れていた。
データの強化技術とSA Mergeを組み合わせることで、Whisper小モデルのMySTデータベース上で8.69の最先端WERを実現し、低リソースASRを改善するためのSA Mergeの可能性を強調した。
関連論文リスト
- Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap [46.607944227556]
テキスト音声合成(TTS)モデルを用いた自動音声認識(ASR)の性能向上のための費用対効果と実用的なアプローチを提案する。
前例のないほど多種多様な低リソースデータセットの実験は、一貫性と実質的なパフォーマンス改善を示している。
本研究では,テキストの多様性,話者の多様性,合成データの量などの要因について検討し,本研究で初めてテキストの多様性について検討した。
論文 参考訳(メタデータ) (2024-10-22T06:25:16Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Multimodal Attention Merging for Improved Speech Recognition and Audio
Event Classification [20.206229252251717]
マルチモーダルアテンション・マージ(MAM)
MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。
Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
論文 参考訳(メタデータ) (2023-12-22T02:08:40Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。