論文の概要: CasNet: Investigating Channel Robustness for Speech Separation
- arxiv url: http://arxiv.org/abs/2210.15370v1
- Date: Thu, 27 Oct 2022 12:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:34:28.515075
- Title: CasNet: Investigating Channel Robustness for Speech Separation
- Title(参考訳): CasNet: 音声分離のためのチャネルロバスト性の調査
- Authors: Fan-Lin Wang, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: トレーニングとテスト条件のチャネルミスマッチを記録することは、音声分離にとって深刻な問題であることが示されている。
本稿では,チャネル対応音声分離ネットワーク(CasNet)を提案する。
- 参考スコア(独自算出の注目度): 23.491007278321266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recording channel mismatch between training and testing conditions has been
shown to be a serious problem for speech separation. This situation greatly
reduces the separation performance, and cannot meet the requirement of daily
use. In this study, inheriting the use of our previously constructed TAT-2mix
corpus, we address the channel mismatch problem by proposing a channel-aware
audio separation network (CasNet), a deep learning framework for end-to-end
time-domain speech separation. CasNet is implemented on top of TasNet. Channel
embedding (characterizing channel information in a mixture of multiple
utterances) generated by Channel Encoder is introduced into the separation
module by the FiLM technique. Through two training strategies, we explore two
roles that channel embedding may play: 1) a real-life noise disturbance, making
the model more robust, or 2) a guide, instructing the separation model to
retain the desired channel information. Experimental results on TAT-2mix show
that CasNet trained with both training strategies outperforms the TasNet
baseline, which does not use channel embeddings.
- Abstract(参考訳): 学習条件とテスト条件のチャネルミスマッチは,音声分離において深刻な問題となっている。
この状況は分離性能を大幅に低下させ、日常の使用要件を満たせない。
本研究では,これまでに構築したtat-2mixコーパスを継承し,チャネル認識型音声分離ネットワーク(casnet)を提案することで,チャネルミスマッチ問題に対処する。
CasNetはTasNet上に実装されている。
チャンネルエンコーダが生成するチャネル埋め込み(複数の発話の混合でチャネル情報をキャラクタライズする)をFiLM技術により分離モジュールに導入する。
2つのトレーニング戦略を通じて、チャネル埋め込みが果たす2つの役割を探求する。
1) 実生活騒音の乱れ, モデルをより堅牢にする, あるいは
2) 所望のチャネル情報を保持するように分離モデルを指示するガイド。
TAT-2mixの実験結果は、両方のトレーニング戦略でトレーニングされたCasNetが、チャネル埋め込みを使用しないTasNetベースラインを上回っていることを示している。
関連論文リスト
- Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。
提案手法は,チャネル抽出技術とGANの相乗効果を利用する。
台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文 参考訳(メタデータ) (2024-09-19T01:02:31Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - DFTS2: Simulating Deep Feature Transmission Over Packet Loss Channels [24.192504570921624]
エッジクラウドコラボレーティブインテリジェンス(CI)では、推論を行うAIモデルの情報パスに信頼できない送信チャネルが存在する。
システム動作を理解し、適切なエラー制御戦略を開発するためには、CIシステムのパフォーマンスを不完全なチャネルでシミュレートできることが重要です。
論文 参考訳(メタデータ) (2021-12-01T19:34:49Z) - Deep Diffusion Models for Robust Channel Estimation [1.7259824817932292]
深部拡散モデルを用いたマルチインプット・マルチアウトプット(MIMO)チャネル推定のための新しい手法を提案する。
提案手法は,高次元空間の任意の点における無線チャネルのログ状勾配を推定するために訓練されたディープニューラルネットワークを用いている。
論文 参考訳(メタデータ) (2021-11-16T01:32:11Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Channel-wise Gated Res2Net: Towards Robust Detection of Synthetic Speech
Attacks [67.7648985513978]
自動話者検証(ASV)における既存のアンチスプーフィングのアプローチは、未確認攻撃に対する一般化性に欠ける。
本稿では,チャネルワイズゲーティング機構を実現するためにRes2Netを改良した新しいCG-Res2Netを提案する。
論文 参考訳(メタデータ) (2021-07-19T12:27:40Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Decentralized Learning for Channel Allocation in IoT Networks over
Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game [134.88020946767404]
本稿では,プライマリセルネットワークにライセンスされたスペクトルに基づいて,アドホックなモノのインターネットネットワークにおける分散チャネル割り当て問題について検討する。
本研究では,この問題をコンテキスト型マルチプレイヤー・マルチアームバンディットゲームにマッピングし,試行錯誤による純粋に分散化された3段階ポリシー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-30T10:05:35Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。