Fugu-MT 論文翻訳(概要): MicAugment: One-shot Microphone Style Transfer

論文の概要: MicAugment: One-shot Microphone Style Transfer

arxiv url: http://arxiv.org/abs/2010.09658v1
Date: Mon, 19 Oct 2020 16:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 21:33:22.776598
Title: MicAugment: One-shot Microphone Style Transfer
Title（参考訳）: micaugment:ワンショットマイクスタイル転送
Authors: Zal\'an Borsos, Yunpeng Li, Beat Gfeller, Marco Tagliasacchi
Abstract要約: MicAugmentは、ターゲットデバイスによって記録されるオーディオのほんの数秒を前提として、入力取得パイプラインに関連する変換を特定する。提案手法は,本手法を実音声に適用し,下流タスクにおけるデータ拡張に用いた場合のモデルロバスト性を大幅に向上することを示す。
参考スコア（独自算出の注目度）: 22.80523197330948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A crucial aspect for the successful deployment of audio-based models "in-the-wild" is the robustness to the transformations introduced by heterogeneous acquisition conditions. In this work, we propose a method to perform one-shot microphone style transfer. Given only a few seconds of audio recorded by a target device, MicAugment identifies the transformations associated to the input acquisition pipeline and uses the learned transformations to synthesize audio as if it were recorded under the same conditions as the target audio. We show that our method can successfully apply the style transfer to real audio and that it significantly increases model robustness when used as data augmentation in the downstream tasks.
Abstract（参考訳）: オーディオベースのモデル"In-the-Wild"の展開を成功させる上で重要な側面は、異種獲得条件によって導入された変換に対する堅牢性である。本研究では,ワンショットマイクロホン方式の転送を行う手法を提案する。ターゲットデバイスで録音された音声のほんの数秒間を与えられたmicaugmentは、入力取得パイプラインに関連する変換を識別し、学習された変換を使用して、ターゲットオーディオと同じ条件で録音されたかのように音声を合成する。本手法は,実際の音声にスタイル転送をうまく適用でき,下流タスクにおけるデータ拡張として使用すると,モデルのロバスト性が著しく向上することを示す。

関連論文リスト

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。 SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文参考訳（メタデータ） (2025-04-08T00:22:16Z)
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-05T13:50:59Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Audio Mamba: Pretrained Audio State Space Model For Audio Tagging [1.2123876307427102]
状態空間モデルとの長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。 2つのオーディオタグ付けデータセットの実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。
論文参考訳（メタデータ） (2024-05-22T13:35:56Z)
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文参考訳（メタデータ） (2023-11-08T14:02:53Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文参考訳（メタデータ） (2023-07-25T03:59:04Z)
Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文参考訳（メタデータ） (2022-08-26T02:54:57Z)
Timbre Transfer with Variational Auto Encoding and Cycle-Consistent Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文参考訳（メタデータ） (2021-09-05T15:06:53Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文参考訳（メタデータ） (2020-09-09T14:26:56Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。