論文の概要: Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces
- arxiv url: http://arxiv.org/abs/2508.05306v1
- Date: Thu, 07 Aug 2025 12:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.844743
- Title: Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces
- Title(参考訳): 自己回帰拡散モデル雑音空間におけるオーディオからの楽曲推定
- Authors: Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer,
- Abstract要約: GIVT (Generative Infinite-Vocabulary Transformer) から得られる予測情報(IC)は,音楽の期待度や推定値のモデル化に用いられている。
自己回帰拡散モデル(ADM)を用いたICを用いたモデリングの有効性について検討する。
本研究は,(1)音素ピッチ推定,(2)複数トラック音声におけるセグメント境界検出の2つの課題を考察することにより,拡散モデルICが副次的な側面を捉えることの有効性を評価する。
- 参考スコア(独自算出の注目度): 3.5570874721859016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the information content (IC) of predictions from a Generative Infinite-Vocabulary Transformer (GIVT) has been used to model musical expectancy and surprisal in audio. We investigate the effectiveness of such modelling using IC calculated with autoregressive diffusion models (ADMs). We empirically show that IC estimates of models based on two different diffusion ordinary differential equations (ODEs) describe diverse data better, in terms of negative log-likelihood, than a GIVT. We evaluate diffusion model IC's effectiveness in capturing surprisal aspects by examining two tasks: (1) capturing monophonic pitch surprisal, and (2) detecting segment boundaries in multi-track audio. In both tasks, the diffusion models match or exceed the performance of a GIVT. We hypothesize that the surprisal estimated at different diffusion process noise levels corresponds to the surprisal of music and audio features present at different audio granularities. Testing our hypothesis, we find that, for appropriate noise levels, the studied musical surprisal tasks' results improve. Code is provided on github.com/SonyCSLParis/audioic.
- Abstract(参考訳): 近年,GIVT (Generative Infinite-Vocabulary Transformer) から得られる予測情報(IC)は,音楽の期待度や推定値のモデル化に用いられている。
自己回帰拡散モデル(ADM)を用いて計算したICを用いたモデリングの有効性を検討した。
2つの異なる拡散常微分方程式(ODE)に基づくモデルのIC推定は、GIVTよりも負の対数類似性(log-likelihood)の観点から、多様なデータをよりよく記述する。
本研究は,(1)音素ピッチ推定,(2)複数トラック音声におけるセグメント境界検出の2つの課題を考察することにより,拡散モデルICが副次的な側面を捉えることの有効性を評価する。
両方のタスクにおいて、拡散モデルはGIVTの性能と一致するか超える。
異なる拡散過程の雑音レベルで推定される補間は、異なる音の粒度に存在する音楽やオーディオの特徴の補間と一致すると仮定する。
仮説を検証したところ、適切な雑音レベルにおいて、研究された音楽的前提課題の結果が改善されていることが判明した。
コードはgithub.com/SonyCSLParis/audioicで提供されている。
関連論文リスト
- Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Audio Decoding by Inverse Problem Solving [1.0612107014404766]
我々は,音声復号化を逆問題とみなし,拡散後サンプリングを用いて解決する。
変換領域知覚音声の例によって提供される信号測定のための明示的条件付け関数を開発した。
論文 参考訳(メタデータ) (2024-09-12T09:05:18Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。