論文の概要: FM Tone Transfer with Envelope Learning
- arxiv url: http://arxiv.org/abs/2310.04811v1
- Date: Sat, 7 Oct 2023 14:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:29:06.979515
- Title: FM Tone Transfer with Envelope Learning
- Title(参考訳): エンベロープ学習によるFMトーン伝達
- Authors: Franco Caspe, Andrew McPherson and Mark Sandler
- Abstract要約: トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
- 参考スコア(独自算出の注目度): 8.771755521263811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tone Transfer is a novel deep-learning technique for interfacing a sound
source with a synthesizer, transforming the timbre of audio excerpts while
keeping their musical form content. Due to its good audio quality results and
continuous controllability, it has been recently applied in several audio
processing tools. Nevertheless, it still presents several shortcomings related
to poor sound diversity, and limited transient and dynamic rendering, which we
believe hinder its possibilities of articulation and phrasing in a real-time
performance context.
In this work, we present a discussion on current Tone Transfer architectures
for the task of controlling synthetic audio with musical instruments and
discuss their challenges in allowing expressive performances. Next, we
introduce Envelope Learning, a novel method for designing Tone Transfer
architectures that map musical events using a training objective at the
synthesis parameter level. Our technique can render note beginnings and endings
accurately and for a variety of sounds; these are essential steps for improving
musical articulation, phrasing, and sound diversity with Tone Transfer.
Finally, we implement a VST plugin for real-time live use and discuss
possibilities for improvement.
- Abstract(参考訳): Tone Transfer(トーン・トランスファー)は、音源とシンセサイザーを相互作用させ、音楽の形式を保ちながら音の音色を変換する新しい深層学習技術である。
良質なオーディオ品質と連続的な制御性のため、最近いくつかのオーディオ処理ツールに適用されている。
それでも、音の多様性の低さや、過渡的かつダイナミックなレンダリングにまつわるいくつかの欠点が残っており、リアルタイムなパフォーマンス環境での調音やフレーズ化の可能性を妨げていると我々は信じている。
本稿では,楽器を用いた合成音声制御の課題として,現在のトーントランスファーアーキテクチャについて論じ,表現的な演奏を可能にする上での課題について論じる。
次に,合成パラメータレベルでの学習目標を用いて音楽イベントをマップする新しい音素伝達アーキテクチャの設計法であるエンベロープ学習を提案する。
本手法は,音符の開始と終了を正確に,様々な音に対して表現することが可能であり,音調伝達による音楽の調音性,フラージング,音の多様性を改善する上で不可欠なステップである。
最後に、リアルタイムライブ使用のためのVSTプラグインを実装し、改善の可能性について議論する。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Creative Text-to-Audio Generation via Synthesizer Programming [1.1203110769488043]
78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。
提案手法であるCTAGは、テキストプロンプトの高品質なオーディオレンダリングを生成するために、シンセサイザーのパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-01T04:08:31Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer [6.29475963948119]
本稿では,WORLDシンセサイザーを試作し,エンド・ツー・エンドのオーディオ・スタイル・トランスファー・タスクでの利用を実証する。
ベースライン微分可能シンセサイザーはモデルパラメータを持たないが、十分な品質合成が得られる。
別の微分可能なアプローチでは、ソーススペクトルの抽出を直接考慮し、自然性を改善することができる。
論文 参考訳(メタデータ) (2022-08-15T15:48:36Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - A Deep Learning Approach for Low-Latency Packet Loss Concealment of
Audio Signals in Networked Music Performance Applications [66.56753488329096]
Networked Music Performance (NMP)は、インターネットアプリケーションにおける潜在的なゲームチェンジャーとして想定されている。
本稿では,ディープ・ラーニング・アプローチを用いて,パケットの損失をリアルタイムで予測する手法について述べる。
論文 参考訳(メタデータ) (2020-07-14T15:51:52Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。