論文の概要: Disentangling the Impacts of Language and Channel Variability on Speech
Separation Networks
- arxiv url: http://arxiv.org/abs/2203.16040v1
- Date: Wed, 30 Mar 2022 04:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 00:46:18.037890
- Title: Disentangling the Impacts of Language and Channel Variability on Speech
Separation Networks
- Title(参考訳): 音声分離ネットワークにおける言語とチャンネルの可変性の影響について
- Authors: Fan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: 話者、コンテンツ、チャンネル、環境などの要因による訓練/テスト状況のドメインミスマッチは、音声分離にとって深刻な問題である。
本研究では,様々な実験のために複数のデータセットを作成し,異なる言語の影響は,異なるチャネルの影響と比較して無視できるほど小さいことを示した。
- 参考スコア(独自算出の注目度): 25.662237869109433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Because the performance of speech separation is excellent for speech in which
two speakers completely overlap, research attention has been shifted to dealing
with more realistic scenarios. However, domain mismatch between training/test
situations due to factors, such as speaker, content, channel, and environment,
remains a severe problem for speech separation. Speaker and environment
mismatches have been studied in the existing literature. Nevertheless, there
are few studies on speech content and channel mismatches. Moreover, the impacts
of language and channel in these studies are mostly tangled. In this study, we
create several datasets for various experiments. The results show that the
impacts of different languages are small enough to be ignored compared to the
impacts of different channels. In our experiments, training on data recorded by
Android phones leads to the best generalizability. Moreover, we provide a new
solution for channel mismatch by evaluating projection, where the channel
similarity can be measured and used to effectively select additional training
data to improve the performance of in-the-wild test data.
- Abstract(参考訳): 音声分離性能は2つの話者が完全に重なり合う音声に優れており、より現実的なシナリオを扱うことに研究の注目が移っている。
しかしながら、話者、コンテンツ、チャネル、環境などの要因による訓練/テスト状況間のドメインミスマッチは、音声分離において深刻な問題となっている。
既存の文献では話者と環境のミスマッチが研究されている。
それにもかかわらず、音声コンテンツとチャンネルミスマッチに関する研究はほとんどない。
さらに、これらの研究における言語とチャネルの影響は、主に絡み合っている。
本研究では,様々な実験のためのデータセットを複数作成する。
その結果、異なる言語の影響は、異なるチャンネルの影響と比較して無視できるほど小さいことがわかった。
実験では,Android端末が記録したデータに対するトレーニングは,最高の一般化可能性をもたらす。
さらに,提案手法では,チャネル類似度を計測し,新たなトレーニングデータを効果的に選択し,ウィジェット内テストデータの性能を向上させるため,チャネルミスマッチの新たなソリューションを提供する。
関連論文リスト
- Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association [24.843733099049015]
本稿では,FAME (Face-Voice Association in Multilingual Environments) 2024の課題に対して,新たな解決策を提案する。
対面音声アソシエーションを強化するために、対照的な学習に基づく連鎖クラスタ法に焦点を当てている。
言語が対面音声の関連性に与える影響について検討した。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
論文 参考訳(メタデータ) (2024-08-04T13:24:36Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。