論文の概要: CaSNet: Compress-and-Send Network Based Multi-Device Speech Enhancement Model for Distributed Microphone Arrays
- arxiv url: http://arxiv.org/abs/2601.17711v1
- Date: Sun, 25 Jan 2026 05:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.225469
- Title: CaSNet: Compress-and-Send Network Based Multi-Device Speech Enhancement Model for Distributed Microphone Arrays
- Title(参考訳): CaSNet:分散マイクロホンアレイのための圧縮・セッション型マルチデバイス音声強調モデル
- Authors: Chengqian Jiang, Jie Zhang, Haoyin Yan,
- Abstract要約: 分散マイクロホンアレイ(DMA)は,音声対話のための次世代プラットフォームである。
本稿では資源制約付きDMAのためのemphCompress-and-Send Network(CaSNet)を提案する。
CaSNetは、圧縮されていないケースと比較して、パフォーマンスに無視できる影響でデータ量を保存することができる。
- 参考スコア(独自算出の注目度): 7.055278049135969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed microphone array (DMA) is a promising next-generation platform for speech interaction, where speech enhancement (SE) is still required to improve the speech quality in noisy cases. Existing SE methods usually first gather raw waveforms at a fusion center (FC) from all devices and then design a multi-microphone model, causing high bandwidth and energy costs. In this work, we propose a \emph{Compress-and-Send Network (CaSNet)} for resource-constrained DMAs, where one microphone serves as the FC and reference. Each of other devices encodes the measured raw data into a feature matrix, which is then compressed by singular value decomposition (SVD) to produce a more compact representation. The received features at the FC are aligned via cross window query with respect to the reference, followed by neural decoding to yield spatially coherent enhanced speech. Experiments on multiple datasets show that the proposed CaSNet can save the data amount with a negligible impact on the performance compared to the uncompressed case. The reproducible code is available at https://github.com/Jokejiangv/CaSNet.
- Abstract(参考訳): 分散マイクロホンアレイ (DMA) は音声対話のための次世代プラットフォームであり, 音声強調 (SE) は, ノイズのある場合の音声品質向上に依然として必要である。
既存のSE法は通常、すべてのデバイスから核融合センター(FC)で生波形を収集し、マルチマイクロフォンモデルを設計し、高い帯域幅とエネルギーコストを発生させる。
本研究では,資源制約付きDMAのためのemph{Compress-and-Send Network (CaSNet)を提案する。
それぞれのデバイスは測定した生データを特徴行列にエンコードし、特異値分解(SVD)によって圧縮してよりコンパクトな表現を生成する。
FCの受信した特徴は、参照に関してクロスウィンドウクエリを介して整列され、続いてニューラルデコードにより空間的に一貫性のある拡張音声が生成される。
複数のデータセットの実験により、提案されたCaSNetは、圧縮されていないケースと比較して、パフォーマンスに無視できない影響でデータ量を節約できることが示された。
再現可能なコードはhttps://github.com/Jokejiangv/CaSNetで入手できる。
関連論文リスト
- VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting [6.15602203132432]
BSP-MPNetは、音声強調のための自己教師付き特徴と等級情報を組み合わせたデュアルパスフレームワークである。
我々はVoiceBank+DEMANDとWHAMR!データセット上でBSP-MPNetを評価する。
論文 参考訳(メタデータ) (2025-03-27T14:52:06Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文 参考訳(メタデータ) (2023-03-13T21:48:20Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。