論文の概要: MicAugment: One-shot Microphone Style Transfer
- arxiv url: http://arxiv.org/abs/2010.09658v1
- Date: Mon, 19 Oct 2020 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:33:22.776598
- Title: MicAugment: One-shot Microphone Style Transfer
- Title(参考訳): micaugment:ワンショットマイクスタイル転送
- Authors: Zal\'an Borsos, Yunpeng Li, Beat Gfeller, Marco Tagliasacchi
- Abstract要約: MicAugmentは、ターゲットデバイスによって記録されるオーディオのほんの数秒を前提として、入力取得パイプラインに関連する変換を特定する。
提案手法は,本手法を実音声に適用し,下流タスクにおけるデータ拡張に用いた場合のモデルロバスト性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 22.80523197330948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A crucial aspect for the successful deployment of audio-based models
"in-the-wild" is the robustness to the transformations introduced by
heterogeneous acquisition conditions. In this work, we propose a method to
perform one-shot microphone style transfer. Given only a few seconds of audio
recorded by a target device, MicAugment identifies the transformations
associated to the input acquisition pipeline and uses the learned
transformations to synthesize audio as if it were recorded under the same
conditions as the target audio. We show that our method can successfully apply
the style transfer to real audio and that it significantly increases model
robustness when used as data augmentation in the downstream tasks.
- Abstract(参考訳): オーディオベースのモデル"In-the-Wild"の展開を成功させる上で重要な側面は、異種獲得条件によって導入された変換に対する堅牢性である。
本研究では,ワンショットマイクロホン方式の転送を行う手法を提案する。
ターゲットデバイスで録音された音声のほんの数秒間を与えられたmicaugmentは、入力取得パイプラインに関連する変換を識別し、学習された変換を使用して、ターゲットオーディオと同じ条件で録音されたかのように音声を合成する。
本手法は,実際の音声にスタイル転送をうまく適用でき,下流タスクにおけるデータ拡張として使用すると,モデルのロバスト性が著しく向上することを示す。
関連論文リスト
- Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation [5.887969742827488]
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-12T14:12:56Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。