論文の概要: An Exploration of Mamba for Speech Self-Supervised Models
- arxiv url: http://arxiv.org/abs/2506.12606v1
- Date: Sat, 14 Jun 2025 19:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.512872
- Title: An Exploration of Mamba for Speech Self-Supervised Models
- Title(参考訳): 音声自己監督モデルのためのマンバ探索
- Authors: Tzu-Quan Lin, Heng-Cheng Kuo, Tzu-Chieh Wei, Hsi-Chun Cheng, Chun-Wei Chen, Hsien-Fu Hsiao, Yu Tsao, Hung-yi Lee,
- Abstract要約: 我々はTransformerベースのSSLアーキテクチャに代わるものとして,MambaベースのHuBERTモデルを探求する。
HuBERTモデルは、計算量を大幅に削減した長文ASRの微調整を可能にする。
これらの結果から,マンバをベースとしたSSLは,時系列モデリング,リアルタイム音声モデリング,音声単位抽出において,有望かつ補完的な方向であることがわかった。
- 参考スコア(独自算出の注目度): 48.01992287080999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Mamba has demonstrated strong performance in language modeling, its potential as a speech self-supervised (SSL) model remains underexplored, with prior studies limited to isolated tasks. To address this, we explore Mamba-based HuBERT models as alternatives to Transformer-based SSL architectures. Leveraging the linear-time Selective State Space, these models enable fine-tuning on long-context ASR with significantly lower compute. Moreover, they show superior performance when fine-tuned for streaming ASR. Beyond fine-tuning, these models show competitive performance on SUPERB probing benchmarks, particularly in causal settings. Our analysis shows that they yield higher-quality quantized representations and capture speaker-related features more distinctly than Transformer-based models. These findings highlight Mamba-based SSL as a promising and complementary direction for long-sequence modeling, real-time speech modeling, and speech unit extraction.
- Abstract(参考訳): Mambaは言語モデリングにおいて強力なパフォーマンスを示してきたが、言語自己教師型(SSL)モデルとしての可能性はいまだに未検討であり、以前の研究は独立したタスクに限られていた。
これを解決するために、TransformerベースのSSLアーキテクチャの代替として、MambaベースのHuBERTモデルを探求する。
線形時間選択状態空間を利用すると、これらのモデルはより少ない計算量で長いコンテキストのASRを微調整することができる。
さらに、ストリーミングASRの微調整時に優れた性能を示す。
微調整以外にも、これらのモデルはSUPERB Probingベンチマーク、特に因果的設定での競合性能を示す。
分析の結果,トランスフォーマーモデルよりも高品質な量子化表現が得られ,話者関連特徴が明瞭に捉えられることがわかった。
これらの結果から,マンバを基盤としたSSLは,時系列モデリング,リアルタイム音声モデリング,音声単位抽出において,有望かつ補完的な方向であることがわかった。
関連論文リスト
- Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。
これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。