論文の概要: Disentangling the Impacts of Language and Channel Variability on Speech
Separation Networks
- arxiv url: http://arxiv.org/abs/2203.16040v1
- Date: Wed, 30 Mar 2022 04:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 00:46:18.037890
- Title: Disentangling the Impacts of Language and Channel Variability on Speech
Separation Networks
- Title(参考訳): 音声分離ネットワークにおける言語とチャンネルの可変性の影響について
- Authors: Fan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: 話者、コンテンツ、チャンネル、環境などの要因による訓練/テスト状況のドメインミスマッチは、音声分離にとって深刻な問題である。
本研究では,様々な実験のために複数のデータセットを作成し,異なる言語の影響は,異なるチャネルの影響と比較して無視できるほど小さいことを示した。
- 参考スコア(独自算出の注目度): 25.662237869109433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Because the performance of speech separation is excellent for speech in which
two speakers completely overlap, research attention has been shifted to dealing
with more realistic scenarios. However, domain mismatch between training/test
situations due to factors, such as speaker, content, channel, and environment,
remains a severe problem for speech separation. Speaker and environment
mismatches have been studied in the existing literature. Nevertheless, there
are few studies on speech content and channel mismatches. Moreover, the impacts
of language and channel in these studies are mostly tangled. In this study, we
create several datasets for various experiments. The results show that the
impacts of different languages are small enough to be ignored compared to the
impacts of different channels. In our experiments, training on data recorded by
Android phones leads to the best generalizability. Moreover, we provide a new
solution for channel mismatch by evaluating projection, where the channel
similarity can be measured and used to effectively select additional training
data to improve the performance of in-the-wild test data.
- Abstract(参考訳): 音声分離性能は2つの話者が完全に重なり合う音声に優れており、より現実的なシナリオを扱うことに研究の注目が移っている。
しかしながら、話者、コンテンツ、チャネル、環境などの要因による訓練/テスト状況間のドメインミスマッチは、音声分離において深刻な問題となっている。
既存の文献では話者と環境のミスマッチが研究されている。
それにもかかわらず、音声コンテンツとチャンネルミスマッチに関する研究はほとんどない。
さらに、これらの研究における言語とチャネルの影響は、主に絡み合っている。
本研究では,様々な実験のためのデータセットを複数作成する。
その結果、異なる言語の影響は、異なるチャンネルの影響と比較して無視できるほど小さいことがわかった。
実験では,Android端末が記録したデータに対するトレーニングは,最高の一般化可能性をもたらす。
さらに,提案手法では,チャネル類似度を計測し,新たなトレーニングデータを効果的に選択し,ウィジェット内テストデータの性能を向上させるため,チャネルミスマッチの新たなソリューションを提供する。
関連論文リスト
- Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Looking Similar, Sounding Different: Leveraging Counterfactual
Cross-Modal Pairs for Audiovisual Representation Learning [6.169259577480192]
映画と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法は,同じビデオと同じような音声コンテンツでのみ異なる,異種音声トラックを表現できることを学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Robustness of end-to-end Automatic Speech Recognition Models -- A Case
Study using Mozilla DeepSpeech [2.715884199292287]
多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。
我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。
論文 参考訳(メタデータ) (2021-05-08T16:46:44Z) - It's not what you said, it's how you said it: discriminative perception
of speech as a multichannel communication system [13.150821247850876]
人は、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、音声による対話を通じて、非常に効果的に情報を伝達する。
本研究は,音声コミュニケーションの人間知覚を,これらのチャネルをまたいで情報がどのようにエンコードされるのかをよりよく理解するための手段として検討するものである。
対話における真の発話と、同じ語彙内容の他の文脈から抽出された発話とを、リスナーが区別できるかどうかを、新しい行動タスクテストで検証する。
論文 参考訳(メタデータ) (2021-05-01T14:30:30Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。