論文の概要: Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.09043v1
- Date: Wed, 04 Feb 2026 06:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.146111
- Title: Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition
- Title(参考訳): ウィンドウド・サマリ・ミキシング:低音源音声認識のための自己教師付き学習モデルの効率的な微調整
- Authors: Aditya Srinivas Menon, Kumud Tripathi, Raj Gohil, Pankaj Wasnik,
- Abstract要約: Windowed SummaryMixing (WSM)を導入し、SlideMixing (SM)を強化した。
WSMは、グローバルな要約と共にローカルな近隣の要約を統合し、時間的依存関係を改善しながら効率を維持します。
提案手法は,SSLモデルのピークVRAM使用率を40%削減しつつ,ASR性能を向上する。
- 参考スコア(独自算出の注目度): 10.177623104133023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has advanced speech processing but suffers from quadratic complexity due to self-attention. To address this, SummaryMixing (SM) has been proposed as a linear-time alternative that summarizes entire utterances using mean pooling but lacks sufficient local context. In this work, we introduce Windowed SummaryMixing (WSM), which enhances SM by integrating local neighborhood summaries alongside the global summary, maintaining efficiency while improving temporal dependencies. Additionally, we introduce a selective fine-tuning approach, replacing self-attention layers in SSL models with WSM blocks and fine-tuning only these blocks in low-resource settings. Our approach improves ASR performance while reducing peak VRAM usage by 40\% in the SSL models. WSM blocks have linear-time complexity with enhanced context awareness. Selectively replacing some attention layers reduces compute, memory, and latency, making it ideal for low-resource speech recognition.
- Abstract(参考訳): 自己教師付き学習(SSL)には高度な音声処理があるが、自己注意による二次的複雑さに悩まされている。
これを解決するために、Somem Mixing (SM) は平均プーリングを用いた全発話を要約する線形時間代替案として提案されているが、十分な局所的コンテキストは欠如している。
本研究では,局所的な要約をグローバルな要約と合わせて統合し,時間的依存関係を改善しつつ効率を向上し,SMを向上するウィンドウド・サマリ・ミキシング(WSM)を提案する。
さらに、選択的な微調整手法を導入し、SSLモデルの自己アテンション層をWSMブロックに置き換え、低リソース設定でこれらのブロックのみを微調整する。
提案手法は,SSLモデルのピークVRAM使用率を40%削減しつつ,ASR性能を向上する。
WSMブロックは、コンテキスト認識が強化された線形時間複雑性を持つ。
注意層を選択的に置き換えることで、計算、メモリ、レイテンシを低減し、低リソース音声認識に最適である。
関連論文リスト
- MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding [23.96717124380285]
MergeMixは、SFTとRLを橋渡しするトレーニング時間拡張パラダイムである。
まず、トークンマージによる注意認識画像の混合と、より多くのクラスタ表現と空間コンテキストを適用する。
次に、MLLMに対して、画像と生画像の混合による選好ペアの構築と、SimPO損失による最適化により、嗜好駆動トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-27T16:12:40Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。
本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。