論文の概要: TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument
- arxiv url: http://arxiv.org/abs/2502.08939v1
- Date: Thu, 13 Feb 2025 03:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:44:58.440022
- Title: TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument
- Title(参考訳): TokenSynth: 楽器のクローニングとテキスト・ツー・インスツルメンテーションのためのトケンベースのニューラルシンセサイザー
- Authors: Kyungsu Kim, Junghyun Koo, Sungho Lee, Haesun Joung, Kyogu Lee,
- Abstract要約: Token Synthは、MIDIトークンとCLAP埋め込みからオーディオトークンを生成する新しいニューラルシンセサイザーである。
本モデルは,楽器のクローニング,テキスト間合成,テキスト誘導音色操作を行うことができる。
- 参考スコア(独自算出の注目度): 19.395289629201056
- License:
- Abstract: Recent advancements in neural audio codecs have enabled the use of tokenized audio representations in various audio generation tasks, such as text-to-speech, text-to-audio, and text-to-music generation. Leveraging this approach, we propose TokenSynth, a novel neural synthesizer that utilizes a decoder-only transformer to generate desired audio tokens from MIDI tokens and CLAP (Contrastive Language-Audio Pretraining) embedding, which has timbre-related information. Our model is capable of performing instrument cloning, text-to-instrument synthesis, and text-guided timbre manipulation without any fine-tuning. This flexibility enables diverse sound design and intuitive timbre control. We evaluated the quality of the synthesized audio, the timbral similarity between synthesized and target audio/text, and synthesis accuracy (i.e., how accurately it follows the input MIDI) using objective measures. TokenSynth demonstrates the potential of leveraging advanced neural audio codecs and transformers to create powerful and versatile neural synthesizers. The source code, model weights, and audio demos are available at: https://github.com/KyungsuKim42/tokensynth
- Abstract(参考訳): ニューラルオーディオコーデックの最近の進歩により、テキスト音声、テキスト音声、テキスト音声生成など、さまざまなオーディオ生成タスクにおいて、トークン化されたオーディオ表現が利用可能になった。
提案手法は,MIDIトークンとCLAP(Contrastive Language-Audio Pretraining)埋め込みから所望の音声トークンを生成するためにデコーダのみ変換器を利用する新しいニューラルシンセサイザーであるTokenSynthを提案する。
楽器のクローン化, テキスト間合成, テキストガイドによる音色操作を, 微調整なしで行うことができる。
この柔軟性は多様なサウンドデザインと直感的な音色制御を可能にする。
合成音声の品質, 合成音声とターゲット音声/テキストの音節類似度, 合成精度(MIDIの精度)を客観的尺度を用いて評価した。
TokenSynth氏は、高度なニューラルオーディオコーデックとトランスフォーマーを活用して、強力で汎用的なニューラルシンセサイザーを作成する可能性をデモしている。
ソースコード、モデルウェイト、オーディオデモは、https://github.com/KyungsuKim42/tokensynth.comで公開されている。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。
まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - Creative Text-to-Audio Generation via Synthesizer Programming [1.1203110769488043]
78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。
提案手法であるCTAGは、テキストプロンプトの高品質なオーディオレンダリングを生成するために、シンセサイザーのパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-01T04:08:31Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - One Billion Audio Sounds from GPU-enabled Modular Synthesis [5.5022962399775945]
Synth1B1は10億の4秒合成音からなるマルチモーダルオーディオコーパスであり、文献のどのオーディオデータセットよりも100倍大きい。
Synth1B1サンプルは、1つのGPU上でリアルタイム(714MHz)よりも高速なオンザフライ16200xで決定的に生成される。
論文 参考訳(メタデータ) (2021-04-27T00:38:52Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。