論文の概要: SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and
Exploration
- arxiv url: http://arxiv.org/abs/2312.04690v2
- Date: Tue, 20 Feb 2024 20:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:38:31.938621
- Title: SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and
Exploration
- Title(参考訳): synthscribe: 合成音声の検索と探索のための深層マルチモーダルツール
- Authors: Stephen Brade, Bryan Wang, Mauricio Sousa, Gregory Lee Newsome, Sageev
Oore, Tovi Grossman
- Abstract要約: マルチモーダルディープラーニングを用いて,ユーザの意図をはるかに高いレベルで表現できるフルスタックシステムを実装した。
我々は,1)既存の音を探索すること,2)全く新しい音を作り出すこと,3)所定の音に意味のある修正を加えること,など,様々な課題に対処する機能を実装している。
- 参考スコア(独自算出の注目度): 21.473019531697062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizers are powerful tools that allow musicians to create dynamic and
original sounds. Existing commercial interfaces for synthesizers typically
require musicians to interact with complex low-level parameters or to manage
large libraries of premade sounds. To address these challenges, we implement
SynthScribe -- a fullstack system that uses multimodal deep learning to let
users express their intentions at a much higher level. We implement features
which address a number of difficulties, namely 1) searching through existing
sounds, 2) creating completely new sounds, 3) making meaningful modifications
to a given sound. This is achieved with three main features: a multimodal
search engine for a large library of synthesizer sounds; a user centered
genetic algorithm by which completely new sounds can be created and selected
given the users preferences; a sound editing support feature which highlights
and gives examples for key control parameters with respect to a text or audio
based query. The results of our user studies show SynthScribe is capable of
reliably retrieving and modifying sounds while also affording the ability to
create completely new sounds that expand a musicians creative horizon.
- Abstract(参考訳): シンセサイザーは、ミュージシャンがダイナミックでオリジナルなサウンドを作れる強力なツールだ。
既存のシンセサイザーの商用インターフェースは、ミュージシャンが複雑な低レベルパラメータと相互作用したり、プリメイド音の大きなライブラリを管理する必要がある。
これらの課題に対処するために、私たちはSynthScribeという、マルチモーダルなディープラーニングを使用して、ユーザが意図をはるかに高いレベルで表現できるフルスタックシステムを実装しています。
我々は多くの困難に対処できる機能、すなわち
1)既存の音を検索する。
2)全く新しい音を作り出す。
3)ある音に意味のある修正を加えること。
これは、大規模なシンセサイザー音のライブラリーのためのマルチモーダル検索エンジン、ユーザの好みに応じて完全に新しい音を作成・選択できるユーザ中心の遺伝的アルゴリズム、テキストまたは音声ベースのクエリに関するキー制御パラメータの例をハイライトし提示する音声編集支援機能、の3つの主要な特徴によって達成される。
ユーザスタディの結果によると、SynthScribeは音を確実に検索し、修正できるだけでなく、ミュージシャンの創造性を拡大する全く新しい音を作り出すことができる。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - Creative Text-to-Audio Generation via Synthesizer Programming [1.1203110769488043]
78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。
提案手法であるCTAGは、テキストプロンプトの高品質なオーディオレンダリングを生成するために、シンセサイザーのパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-01T04:08:31Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation [19.13182347908491]
音色を最適に復元するパラメータの集合を推定する問題は、重要かつ複雑な問題である。
我々は,この問題を解決するために,マルチモーダルなディープラーニングベースのパイプラインSound2 Synthと,ネットワーク構造であるPrime-Dilated Convolution(PDC)を提案する。
提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。
論文 参考訳(メタデータ) (2022-05-06T06:55:29Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。