論文の概要: The Concatenator: A Bayesian Approach To Real Time Concatenative Musaicing
- arxiv url: http://arxiv.org/abs/2411.04366v1
- Date: Thu, 07 Nov 2024 01:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:51.400327
- Title: The Concatenator: A Bayesian Approach To Real Time Concatenative Musaicing
- Title(参考訳): Concatenator: リアルタイム・コンカレント・ミューシングに対するベイズ的アプローチ
- Authors: Christopher Tralie, Ben Cantil,
- Abstract要約: 音声誘導コンカテネータ合成のためのリアルタイムシステム「The Concatenator」を提案する。
粒子フィルタを用いて最適コーパス状態をリアルタイムで推定する。
我々のシステムは数時間のコーパスにスケールするが、これは膨大なオーディオデータ収集の時代において重要な特徴である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present ``The Concatenator,'' a real time system for audio-guided concatenative synthesis. Similarly to Driedger et al.'s ``musaicing'' (or ``audio mosaicing'') technique, we concatenate a set number of windows within a corpus of audio to re-create the harmonic and percussive aspects of a target audio stream. Unlike Driedger's NMF-based technique, however, we instead use an explicitly Bayesian point of view, where corpus window indices are hidden states and the target audio stream is an observation. We use a particle filter to infer the best hidden corpus states in real-time. Our transition model includes a tunable parameter to control the time-continuity of corpus grains, and our observation model allows users to prioritize how quickly windows change to match the target. Because the computational complexity of the system is independent of the corpus size, our system scales to corpora that are hours long, which is an important feature in the age of vast audio data collections. Within The Concatenator module itself, composers can vary grain length, fit to target, and pitch shift in real time while reacting to the sounds they hear, enabling them to rapidly iterate ideas. To conclude our work, we evaluate our system with extensive quantitative tests of the effects of parameters, as well as a qualitative evaluation with artistic insights. Based on the quality of the results, we believe the real-time capability unlocks new avenues for musical expression and control, suitable for live performance and modular synthesis integration, which furthermore represents an essential breakthrough in concatenative synthesis technology.
- Abstract(参考訳): 音声誘導型コンカチネータ合成のためのリアルタイムシステム「ザ・コンカチネータ」を提案する。
Driedger et al 's `musaicing' (または ` `audio mosaicing') 技術と同様に、ターゲットオーディオストリームのハーモニックおよびパーカッシブな側面を再生成するために、オーディオコーパス内の一連のウィンドウを結合する。
しかし、DriedgerのNMFベースの手法とは違って、コーパスウィンドウのインデックスは隠れ状態であり、ターゲットのオーディオストリームは観測値である、明確にベイズ的な視点を用いる。
粒子フィルタを用いて最適隠れコーパス状態をリアルタイムで推定する。
我々の遷移モデルは、コーパス粒の時間連続性を制御するための調整可能なパラメータを含む。
システムの計算複雑性はコーパスサイズとは無関係であるため,大規模なオーディオデータ収集の時代において重要な特徴である数時間のコーパスにスケールする。
The Concatenatorモジュール自体では、作曲家は音に反応しながら、穀物の長さ、ターゲットにフィットし、ピッチシフトをリアルタイムで変化させ、アイデアをすばやく反復することができる。
本研究を締めくくるために,パラメータの効果を定量的に検証し,芸術的洞察による質的評価を行った。
結果の質に基づいて、リアルタイム能力は、生演奏やモジュール合成の統合に適した、音楽表現と制御のための新たな道を開くものと信じており、さらに、コンカニオン合成技術において重要なブレークスルーとなっている。
関連論文リスト
- Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - A Modulation Front-End for Music Audio Tagging [0.0]
変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。
時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。
我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-05-25T11:05:24Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning [5.33024001730262]
ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。
AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。
実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
論文 参考訳(メタデータ) (2020-02-21T09:08:28Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。