論文の概要: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.02144v1
- Date: Thu, 3 Oct 2024 02:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:35:44.712109
- Title: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- Title(参考訳): SoundMorpher:拡散モデルを用いた知覚的一様音像定位
- Authors: Xinlei Niu, Jing Zhang, Charles Patrick Martin,
- Abstract要約: 拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。
SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚刺激との明確な比例写像を探索する。
実世界のシナリオにおけるSoundMorpherの有効性と汎用性を示す実験を行った。
- 参考スコア(独自算出の注目度): 7.266032317395858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SoundMorpher, a sound morphing method that generates perceptually uniform morphing trajectories using a diffusion model. Traditional sound morphing methods models the intractable relationship between morph factor and perception of the stimuli for resulting sounds under a linear assumption, which oversimplifies the complex nature of sound perception and limits their morph quality. In contrast, SoundMorpher explores an explicit proportional mapping between the morph factor and the perceptual stimuli of morphed sounds based on Mel-spectrogram. This approach enables smoother transitions between intermediate sounds and ensures perceptually consistent transformations, which can be easily extended to diverse sound morphing tasks. Furthermore, we present a set of quantitative metrics to comprehensively assess sound morphing systems based on three objective criteria, namely, correspondence, perceptual intermediateness, and smoothness. We provide extensive experiments to demonstrate the effectiveness and versatility of SoundMorpher in real-world scenarios, highlighting its potential impact on various applications such as creative music composition, film post-production and interactive audio technologies.
- Abstract(参考訳): 拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。
従来の音響モーフィング法は、音響知覚の複雑な性質を過度に単純化し、モーフィングの質を制限する線形仮定の下で、モーフィングと刺激の知覚の間の難解な関係をモデル化する。
対照的に、SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚音の知覚刺激との明確な比例写像を探索する。
このアプローチは、中間音間のよりスムーズな遷移を可能にし、知覚的に一貫した変換を保証する。
さらに,3つの客観的基準,すなわち対応性,知覚中間性,滑らか性に基づいて,音響形態素系を包括的に評価するための定量的指標のセットを提案する。
本研究では,現実のシナリオにおけるSoundMorpherの有効性と汎用性を実証するための広範な実験を行い,創造的な音楽構成,映画ポストプロダクション,インタラクティブオーディオ技術など,様々な応用にその可能性を強調した。
関連論文リスト
- Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Contrastive Learning from Synthetic Audio Doppelgangers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation [32.648815593259485]
オーディオヴィジュアルシーケンスのためのトレーニング拡散モデルは、様々な生成タスクを可能にする。
聴覚空間における任意の条件分布を効果的に学習するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:47:14Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。