論文の概要: Pitch-Conditioned Instrument Sound Synthesis From an Interactive Timbre Latent Space
- arxiv url: http://arxiv.org/abs/2510.04339v1
- Date: Sun, 05 Oct 2025 20:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.591966
- Title: Pitch-Conditioned Instrument Sound Synthesis From an Interactive Timbre Latent Space
- Title(参考訳): 対話型音色ラテント空間からのピッチ調音器音合成
- Authors: Christian Limberg, Fares Schulz, Zhe Zhang, Stefan Weinzierl,
- Abstract要約: 本稿では,2段階の半教師あり学習フレームワークを用いたニューラル・インスツルメンツ・サウンド・シンセサイザーのための新しい手法を提案する。
本研究では、変分オートエンコーダを用いて、音声サンプルのピッチ・音色不整形2次元表現を訓練する。
我々はこの表現をトランスフォーマーに基づく生成モデルの条件付け入力として利用する。
- 参考スコア(独自算出の注目度): 6.12877670327196
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a novel approach to neural instrument sound synthesis using a two-stage semi-supervised learning framework capable of generating pitch-accurate, high-quality music samples from an expressive timbre latent space. Existing approaches that achieve sufficient quality for music production often rely on high-dimensional latent representations that are difficult to navigate and provide unintuitive user experiences. We address this limitation through a two-stage training paradigm: first, we train a pitch-timbre disentangled 2D representation of audio samples using a Variational Autoencoder; second, we use this representation as conditioning input for a Transformer-based generative model. The learned 2D latent space serves as an intuitive interface for navigating and exploring the sound landscape. We demonstrate that the proposed method effectively learns a disentangled timbre space, enabling expressive and controllable audio generation with reliable pitch conditioning. Experimental results show the model's ability to capture subtle variations in timbre while maintaining a high degree of pitch accuracy. The usability of our method is demonstrated in an interactive web application, highlighting its potential as a step towards future music production environments that are both intuitive and creatively empowering: https://pgesam.faresschulz.com
- Abstract(参考訳): 本稿では,2段階の半教師付き学習フレームワークを用いて,表現的音色潜在空間からピッチ精度の高い高品質な音楽サンプルを生成可能なニューラル・インスツルメンツ・サウンド合成手法を提案する。
音楽制作に十分な品質を実現する既存のアプローチは、ナビゲートが困難で、直感的でないユーザー体験を提供する、高次元の潜在表現に依存していることが多い。
まず,変分オートエンコーダを用いて音声サンプルのピッチ-音色の2次元表現を訓練し,この表現をトランスフォーマーに基づく生成モデルの条件入力として利用する。
学習された2D潜伏空間は、音の風景をナビゲートし探索するための直感的なインターフェースとして機能する。
提案手法は,不整合な音色空間を効果的に学習し,信頼性の高いピッチ条件付き表現的かつ制御可能な音声生成を可能にする。
実験結果から,高いピッチ精度を維持しつつ,音色の微妙な変化を捉えることができることがわかった。
本手法のユーザビリティは,インタラクティブなWebアプリケーションで実証され,直感的かつ創造的なエンパワーメントを備えた,将来の音楽制作環境へのステップとしての可能性を強調している。
関連論文リスト
- FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。
その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。
これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文 参考訳(メタデータ) (2024-12-19T16:37:19Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。