論文の概要: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.02144v1
- Date: Thu, 3 Oct 2024 02:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:35:44.712109
- Title: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- Title(参考訳): SoundMorpher:拡散モデルを用いた知覚的一様音像定位
- Authors: Xinlei Niu, Jing Zhang, Charles Patrick Martin,
- Abstract要約: 拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。
SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚刺激との明確な比例写像を探索する。
実世界のシナリオにおけるSoundMorpherの有効性と汎用性を示す実験を行った。
- 参考スコア(独自算出の注目度): 7.266032317395858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SoundMorpher, a sound morphing method that generates perceptually uniform morphing trajectories using a diffusion model. Traditional sound morphing methods models the intractable relationship between morph factor and perception of the stimuli for resulting sounds under a linear assumption, which oversimplifies the complex nature of sound perception and limits their morph quality. In contrast, SoundMorpher explores an explicit proportional mapping between the morph factor and the perceptual stimuli of morphed sounds based on Mel-spectrogram. This approach enables smoother transitions between intermediate sounds and ensures perceptually consistent transformations, which can be easily extended to diverse sound morphing tasks. Furthermore, we present a set of quantitative metrics to comprehensively assess sound morphing systems based on three objective criteria, namely, correspondence, perceptual intermediateness, and smoothness. We provide extensive experiments to demonstrate the effectiveness and versatility of SoundMorpher in real-world scenarios, highlighting its potential impact on various applications such as creative music composition, film post-production and interactive audio technologies.
- Abstract(参考訳): 拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。
従来の音響モーフィング法は、音響知覚の複雑な性質を過度に単純化し、モーフィングの質を制限する線形仮定の下で、モーフィングと刺激の知覚の間の難解な関係をモデル化する。
対照的に、SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚音の知覚刺激との明確な比例写像を探索する。
このアプローチは、中間音間のよりスムーズな遷移を可能にし、知覚的に一貫した変換を保証する。
さらに,3つの客観的基準,すなわち対応性,知覚中間性,滑らか性に基づいて,音響形態素系を包括的に評価するための定量的指標のセットを提案する。
本研究では,現実のシナリオにおけるSoundMorpherの有効性と汎用性を実証するための広範な実験を行い,創造的な音楽構成,映画ポストプロダクション,インタラクティブオーディオ技術など,様々な応用にその可能性を強調した。
関連論文リスト
- Audio Texture Manipulation by Exemplar-Based Analogy [3.7209456282942734]
音響テクスチャ操作のための模範的な類似モデルを提案する。
テキストベースの命令を条件付けする代わりに,ペア音声の例を用いる。
我々は,本モデルがテキスト条件ベースラインより優れているという評価と知覚的研究を通して示す。
論文 参考訳(メタデータ) (2025-01-21T18:58:38Z) - Contrastive Learning from Synthetic Audio Doppelgangers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Neural Crossbreed: Neural Based Image Metamorphosis [11.357156231073862]
本稿では,入力画像の意味的変化を潜時空間で学習し,モーフィング効果を生み出すフィードフォワードニューラルネットワークを提案する。
ネットワークは意味的変化を学習するため、ユーザが明示的な対応を指定せずに意味のある中間画像のシーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-09-02T08:56:47Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Not made for each other- Audio-Visual Dissonance-based Deepfake
Detection and Localization [7.436429318051601]
本稿では,MDS(Modality Dissonance Score)と呼ばれる音声と視覚の相違に基づくディープフェイクビデオの検出を提案する。
MDSは、ビデオ内の音声と視覚セグメント間の相似性のスコアの集合として計算される。
われわれの手法は最先端の技術を7%も上回っている。
論文 参考訳(メタデータ) (2020-05-29T06:09:33Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。