論文の概要: TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms
- arxiv url: http://arxiv.org/abs/2405.01242v1
- Date: Thu, 2 May 2024 12:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:34:40.925199
- Title: TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms
- Title(参考訳): TRAMBA: 携帯・ウェアラブルプラットフォーム上での音声・骨伝導音声の高分解能・高機能化のためのハイブリッドトランスフォーマとマンバアーキテクチャ
- Authors: Yueyuan Sui, Minghui Zhao, Junxi Xia, Xiaofan Jiang, Stephen Xia,
- Abstract要約: 音響・骨伝導音声強調のためのハイブリッドトランスであるTRAMBAとMambaアーキテクチャを提案する。
TRAMBAは、データサンプリングや送信を少なくすることで、ウェアラブルのバッテリ寿命を最大160%改善することを示す。
- 参考スコア(独自算出の注目度): 1.4636344990713703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TRAMBA, a hybrid transformer and Mamba architecture for acoustic and bone conduction speech enhancement, suitable for mobile and wearable platforms. Bone conduction speech enhancement has been impractical to adopt in mobile and wearable platforms for several reasons: (i) data collection is labor-intensive, resulting in scarcity; (ii) there exists a performance gap between state of-art models with memory footprints of hundreds of MBs and methods better suited for resource-constrained systems. To adapt TRAMBA to vibration-based sensing modalities, we pre-train TRAMBA with audio speech datasets that are widely available. Then, users fine-tune with a small amount of bone conduction data. TRAMBA outperforms state-of-art GANs by up to 7.3% in PESQ and 1.8% in STOI, with an order of magnitude smaller memory footprint and an inference speed up of up to 465 times. We integrate TRAMBA into real systems and show that TRAMBA (i) improves battery life of wearables by up to 160% by requiring less data sampling and transmission; (ii) generates higher quality voice in noisy environments than over-the-air speech; (iii) requires a memory footprint of less than 20.0 MB.
- Abstract(参考訳): 本稿では,モバイルおよびウェアラブルプラットフォームに適した音響・骨伝導音声強調のためのハイブリッドトランスフォーマーTRAMBAとMambaアーキテクチャを提案する。
骨伝導音声強調は、モバイルおよびウェアラブルプラットフォームで採用されるには、いくつかの理由から非現実的である。
i) データ収集は労働集約的であり,その結果,不足する。
(II)数百MBのメモリフットプリントを持つ最先端モデルと資源制約システムに適した手法の間には,性能ギャップが存在する。
TRAMBAを振動に基づくセンシングに適応させるため、広範に利用できる音声音声データセットを用いてTRAMBAを事前訓練する。
そして、少量の骨伝導データで微調整を行う。
TRAMBAは、PESQが最大7.3%、STOIが1.8%、メモリフットプリントが桁違いに小さく、推論速度が最大465倍である。
我々はTRAMBAを実システムに統合し、TRAMBAを示す
i)データサンプリングや送信を少なくすることで、ウェアラブルのバッテリ寿命を最大160%向上させる。
(ii) 雑音の多い環境下では, 放送音声よりも高品質な音声を生成する。
(iii)メモリフットプリントは20.0MB未満である。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model [12.399378490833818]
Self-Supervised Audio Mamba (SSAMBA) は、音声表現学習のための最初の自己監督型、注意なし、およびSSMベースのモデルである。
以上の結果から,SSAMBAはSSAST(Self-Supervised Audio Spectrogram Transformer)よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-20T06:58:47Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。
MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文 参考訳(メタデータ) (2022-10-27T15:53:38Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Tiny Transformers for Environmental Sound Classification at the Edge [0.6193838300896449]
本研究は,エッジにおける環境音の分類分野における音響モデルの訓練手法を提案する。
具体的には、トランスフォーマーの設計とトレーニングを行い、オフィスのサウンドをオーディオクリップに分類します。
その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。
論文 参考訳(メタデータ) (2021-03-22T20:12:15Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications [23.470690511056173]
インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的単語誤り率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、LCBLSTMと同じようなモデルサイズとレイテンシを比較して、Emformerはビデオキャプションデータセットで4つの言語にわたる重要なWERRを取得する。
論文 参考訳(メタデータ) (2020-10-27T23:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。