Fugu-MT 論文翻訳(概要): Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition

論文の概要: Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition

arxiv url: http://arxiv.org/abs/2602.09043v1
Date: Wed, 04 Feb 2026 06:01:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-11 20:17:43.146111
Title: Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition
Title（参考訳）: ウィンドウド・サマリ・ミキシング:低音源音声認識のための自己教師付き学習モデルの効率的な微調整
Authors: Aditya Srinivas Menon, Kumud Tripathi, Raj Gohil, Pankaj Wasnik,
Abstract要約: Windowed SummaryMixing (WSM)を導入し、SlideMixing (SM)を強化した。 WSMは、グローバルな要約と共にローカルな近隣の要約を統合し、時間的依存関係を改善しながら効率を維持します。提案手法は,SSLモデルのピークVRAM使用率を40%削減しつつ,ASR性能を向上する。
参考スコア（独自算出の注目度）: 10.177623104133023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning (SSL) has advanced speech processing but suffers from quadratic complexity due to self-attention. To address this, SummaryMixing (SM) has been proposed as a linear-time alternative that summarizes entire utterances using mean pooling but lacks sufficient local context. In this work, we introduce Windowed SummaryMixing (WSM), which enhances SM by integrating local neighborhood summaries alongside the global summary, maintaining efficiency while improving temporal dependencies. Additionally, we introduce a selective fine-tuning approach, replacing self-attention layers in SSL models with WSM blocks and fine-tuning only these blocks in low-resource settings. Our approach improves ASR performance while reducing peak VRAM usage by 40\% in the SSL models. WSM blocks have linear-time complexity with enhanced context awareness. Selectively replacing some attention layers reduces compute, memory, and latency, making it ideal for low-resource speech recognition.
Abstract（参考訳）: 自己教師付き学習(SSL)には高度な音声処理があるが、自己注意による二次的複雑さに悩まされている。これを解決するために、Somem Mixing (SM) は平均プーリングを用いた全発話を要約する線形時間代替案として提案されているが、十分な局所的コンテキストは欠如している。本研究では,局所的な要約をグローバルな要約と合わせて統合し,時間的依存関係を改善しつつ効率を向上し,SMを向上するウィンドウド・サマリ・ミキシング(WSM)を提案する。さらに、選択的な微調整手法を導入し、SSLモデルの自己アテンション層をWSMブロックに置き換え、低リソース設定でこれらのブロックのみを微調整する。提案手法は,SSLモデルのピークVRAM使用率を40%削減しつつ,ASR性能を向上する。 WSMブロックは、コンテキスト認識が強化された線形時間複雑性を持つ。注意層を選択的に置き換えることで、計算、メモリ、レイテンシを低減し、低リソース音声認識に最適である。

関連論文リスト

From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations [14.0185129202898]
BoxPromptIMLは、アノテーションコストとローカライゼーションパフォーマンスのバランスをとる、新しい弱教師付きIMLフレームワークである。ヒトの意識下記憶機構にインスパイアされた我々の特徴融合モジュールは、リアルタイムな観察手法を用いて、リコールされたパターンを積極的に文脈化するための二重誘導方式を採用している。
論文参考訳（メタデータ） (2025-11-25T14:39:17Z)
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。 Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。 LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文参考訳（メタデータ） (2025-11-10T16:03:44Z)
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding [23.96717124380285]
MergeMixは、SFTとRLを橋渡しするトレーニング時間拡張パラダイムである。まず、トークンマージによる注意認識画像の混合と、より多くのクラスタ表現と空間コンテキストを適用する。次に、MLLMに対して、画像と生画像の混合による選好ペアの構築と、SimPO損失による最適化により、嗜好駆動トレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-27T16:12:40Z)
Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。この知見に触発されて、我々はLanguage Rankerを提案する。実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文参考訳（メタデータ） (2025-10-23T17:56:46Z)
Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文参考訳（メタデータ） (2025-01-29T13:24:53Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。