論文の概要: Catch-A-Waveform: Learning to Generate Audio from a Single Short Example
- arxiv url: http://arxiv.org/abs/2106.06426v1
- Date: Fri, 11 Jun 2021 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:01:03.007668
- Title: Catch-A-Waveform: Learning to Generate Audio from a Single Short Example
- Title(参考訳): Catch-A-Waveform:単一事例から音声を生成する学習
- Authors: Gal Greshler, Tamar Rott Shaham and Tomer Michaeli
- Abstract要約: 任意の領域から1つの短い音声信号で訓練できるGANに基づく生成モデルを提案する。
いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。
- 参考スコア(独自算出の注目度): 33.96833901121411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models for audio generation are typically trained on hours of recordings.
Here, we illustrate that capturing the essence of an audio source is typically
possible from as little as a few tens of seconds from a single training signal.
Specifically, we present a GAN-based generative model that can be trained on
one short audio signal from any domain (e.g. speech, music, etc.) and does not
require pre-training or any other form of external supervision. Once trained,
our model can generate random samples of arbitrary duration that maintain
semantic similarity to the training waveform, yet exhibit new compositions of
its audio primitives. This enables a long line of interesting applications,
including generating new jazz improvisations or new a-cappella rap variants
based on a single short example, producing coherent modifications to famous
songs (e.g. adding a new verse to a Beatles song based solely on the original
recording), filling-in of missing parts (inpainting), extending the bandwidth
of a speech signal (super-resolution), and enhancing old recordings without
access to any clean training example. We show that in all cases, no more than
20 seconds of training audio commonly suffice for our model to achieve
state-of-the-art results. This is despite its complete lack of prior knowledge
about the nature of audio signals in general.
- Abstract(参考訳): 音声生成のモデルは、通常数時間の録音で訓練される。
ここでは,1つの訓練信号から数秒から数秒程度で音声源の本質を捉えることが可能であることを示す。
具体的には、任意のドメイン(例えば、)から1つの短い音声信号でトレーニングできるGANベースの生成モデルを提案する。
スピーチ、音楽など)
事前トレーニングや他の外部の監視は必要ありません。
トレーニングが完了すると、トレーニング波形と意味的類似性を維持しながら、音声プリミティブの新しい構成を示す任意の持続時間のランダムなサンプルを生成することができます。
これにより、新しいジャズ即興曲や新しいアカペラ・ラップの変奏曲を単一の短い例に基づいて生成し、有名な曲のコヒーレントな修正(例)など、多くの興味深い応用が可能となる。
ビートルズの曲にオリジナル録音のみに基づく新しい歌詞を追加し、欠落した部分(塗装)を埋め込み、音声信号の帯域を拡大し(超高解像度)、クリーンなトレーニング例にアクセスせずに古い録音を拡張した。
いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。
これは、一般的な音声信号の性質に関する事前知識の欠如にもかかわらずである。
関連論文リスト
- Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - ArchiSound: Audio Generation with Diffusion [0.0]
本研究では,音声生成のための拡散モデルの可能性について検討する。
重畳した1次元U-Netを用いたテキスト条件付き潜在音声拡散手法を提案する。
各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に取り組みます。
論文 参考訳(メタデータ) (2023-01-30T20:23:26Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。