論文の概要: Mic2Mic: Using Cycle-Consistent Generative Adversarial Networks to
Overcome Microphone Variability in Speech Systems
- arxiv url: http://arxiv.org/abs/2003.12425v1
- Date: Fri, 27 Mar 2020 14:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 04:55:39.378116
- Title: Mic2Mic: Using Cycle-Consistent Generative Adversarial Networks to
Overcome Microphone Variability in Speech Systems
- Title(参考訳): Mic2Mic:Cycle-Consistent Generative Adversarial Networks を用いて音声システムにおけるマイクロホンの変動を克服する
- Authors: Akhil Mathur, Anton Isopoussu, Fahim Kawsar, Nadia Berthouze, Nicholas
D. Lane
- Abstract要約: 我々は,Mic2Micを提案する。Mic2Micは機械学習システムコンポーネントで,音声モデルの推論パイプラインに留まり,マイクロホン固有の要因による音声データの変動をリアルタイムで低減する。
実験の結果、Mic2Micは2つの一般的な音声タスクにおいて、マイクロホンの可変性によって失われる精度の66%から89%を回復できることがわかった。
- 参考スコア(独自算出の注目度): 21.60701279013914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile and embedded devices are increasingly using microphones and
audio-based computational models to infer user context. A major challenge in
building systems that combine audio models with commodity microphones is to
guarantee their accuracy and robustness in the real-world. Besides many
environmental dynamics, a primary factor that impacts the robustness of audio
models is microphone variability. In this work, we propose Mic2Mic -- a
machine-learned system component -- which resides in the inference pipeline of
audio models and at real-time reduces the variability in audio data caused by
microphone-specific factors. Two key considerations for the design of Mic2Mic
were: a) to decouple the problem of microphone variability from the audio task,
and b) put a minimal burden on end-users to provide training data. With these
in mind, we apply the principles of cycle-consistent generative adversarial
networks (CycleGANs) to learn Mic2Mic using unlabeled and unpaired data
collected from different microphones. Our experiments show that Mic2Mic can
recover between 66% to 89% of the accuracy lost due to microphone variability
for two common audio tasks.
- Abstract(参考訳): モバイルと組み込みデバイスは、ユーザーのコンテキストを推測するためにマイクロホンとオーディオベースの計算モデルを使っている。
オーディオモデルとコモディティマイクを組み合わせたシステムを構築する上での大きな課題は、実世界の正確性と堅牢性を保証することである。
多くの環境力学に加えて、音響モデルの堅牢性に影響を与える主な要因はマイクロフォンの変動である。
本研究では,機械学習システムコンポーネントであるMic2Micを提案する。これは音声モデルの推論パイプラインに留まり,マイクロホン固有の要因による音声データの変動をリアルタイムで低減する。
Mic2Micの設計には2つの重要な考慮事項がある。
a) マイクロホンの可変性の問題を音声タスクから切り離し、
b) エンドユーザにトレーニングデータを提供するための最小限の負担を課す。
これらのことを念頭に置いて,Mic2Micを異なるマイクロホンから収集した未ラベル・未ペアデータを用いて学習するために,サイクル一貫性のある生成逆数ネットワーク(CycleGAN)の原理を適用した。
実験の結果,マイクロホンの変動性により失われる精度の66%から89%をマイクロホンが回復できることがわかった。
関連論文リスト
- Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation [0.0]
本稿では,デバイス変動に対する音響イベント分類システムのレジリエンスを高めるための統合生成フレームワークを提案する。
提案手法は最先端の手法を2.6%向上させ, マクロ平均F1スコアの変動率を0.8%低減する。
論文 参考訳(メタデータ) (2024-10-23T23:10:09Z) - Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文 参考訳(メタデータ) (2023-03-13T21:48:20Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Computing Optimal Location of Microphone for Improved Speech Recognition [15.6724888625744]
マイクロホンの最適位置は,3次元空間におけるマイクロホンの正確な位置を推定し,その位置を推定する。
クリーンで騒々しい音声を用いて実験を行い、マイクロホンの最適位置がユニークでノイズの影響を受けていることを示す。
論文 参考訳(メタデータ) (2022-03-24T14:27:15Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Utterance-Wise Meeting Transcription System Using Asynchronous
Distributed Microphones [27.07568513025875]
本稿では,非同期マイクロホンを用いた新しい音声書き起こしフレームワークを提案する。
音声同期、話者ダイアリゼーション、誘導音源分離を用いた発話音声強調、自動音声認識、重複低減で構成されている。
論文 参考訳(メタデータ) (2020-07-31T06:50:04Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。