論文の概要: Polynomial Mixing for Efficient Self-supervised Speech Encoders
- arxiv url: http://arxiv.org/abs/2603.00683v1
- Date: Sat, 28 Feb 2026 14:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.321462
- Title: Polynomial Mixing for Efficient Self-supervised Speech Encoders
- Title(参考訳): 効率的な自己教師型音声エンコーダのためのポリノミアルミキシング
- Authors: Eva Feillet, Ryan Whetten, David Picard, Alexandre Allauzen,
- Abstract要約: Polynomial Mixer (PoM) はマルチヘッド自己注意の代替品である。
PoMは下流音声認識タスクでその性能を達成する。
- 参考スコア(独自算出の注目度): 50.58463928808225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art speech-to-text models typically employ Transformer-based encoders that model token dependencies via self-attention mechanisms. However, the quadratic complexity of self-attention in both memory and computation imposes significant constraints on scalability. In this work, we propose a novel token-mixing mechanism, the Polynomial Mixer (PoM), as a drop-in replacement for multi-head self-attention. PoM computes a polynomial representation of the input with linear complexity with respect to the input sequence length. We integrate PoM into a self-supervised speech representation learning framework based on BEST-RQ and evaluate its performance on downstream speech recognition tasks. Experimental results demonstrate that PoM achieves a competitive word error rate compared to full self-attention and other linear-complexity alternatives, offering an improved trade-off between performance and efficiency in time and memory.
- Abstract(参考訳): State-of-the-the-the-art speech-to-text Modelは通常、自己保持機構を介してトークンの依存関係をモデル化するTransformerベースのエンコーダを使用する。
しかし、メモリと計算の両方における自己注意の二次的な複雑さは、スケーラビリティに重大な制約を課している。
本研究では, トークン混合機構であるポリノミアルミキサー(PoM)を提案する。
PoMは入力の多項式表現を、入力シーケンス長に関して線形複雑に計算する。
我々は,BEST-RQに基づく自己教師型音声表現学習フレームワークにPoMを組み込み,下流音声認識タスクの性能評価を行う。
実験結果から,PoMは完全自己アテンションや他の線形複雑度代替よりも高い単語誤り率を示し,時間とメモリにおける性能と効率のトレードオフを改善した。
関連論文リスト
- A Transformer Inspired AI-based MIMO receiver [0.5039813366558306]
AttDetの設計は、モデルベースの解釈可能性とデータ駆動の柔軟性を組み合わせる。
5Gチャネルモデルと高次混合QAM変調および符号化方式のリンクレベルシミュレーションによる実演を行う。
AttDetは予測可能で現実的な複雑さを維持しながら、ほぼ最適のBER/BLERパフォーマンスにアプローチすることができる。
論文 参考訳(メタデータ) (2025-10-23T09:05:10Z) - From Attention to Atoms: Spectral Dictionary Learning for Fast, Interpretable Language Models [0.0]
本稿では,グローバル時間変化のフーリエ辞書とトークン混合係数を共同で学習する,自然言語処理のためのスペクトル生成モデリングフレームワークを提案する。
本手法は,WikiText2やPenn Treebankなどの標準ベンチマークにおいて,競合するパープレキシティと生成品質を実現する。
スペクトル辞書モデルでは、トランスフォーマーベースラインと比較して競合性能が向上し、推論遅延やメモリフットプリントを大幅に削減できることを示した。
論文 参考訳(メタデータ) (2025-04-29T13:24:42Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。
クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。
この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文 参考訳(メタデータ) (2025-02-26T15:15:01Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation [45.90599689005832]
近年,ADL-MVDRビームフォーマ法を応用したリカレントニューラルネットワーク(RNN)は,従来のMVDRよりも優れた性能を示した。
我々は、自己注意の強力なモデリング能力を活用し、従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。
論文 参考訳(メタデータ) (2021-04-17T05:02:04Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。