論文の概要: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.02144v2
- Date: Mon, 16 Dec 2024 05:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:48:46.208224
- Title: SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model
- Title(参考訳): SoundMorpher:拡散モデルを用いた知覚的一様音像定位
- Authors: Xinlei Niu, Jing Zhang, Charles Patrick Martin,
- Abstract要約: 本研究では,知覚的に均一なモーフィング軌跡を生成するために設計された,オープンワールドなモーフィング手法SoundMorpherを提案する。
従来の音響モーフィング技術は、モーフィング因子と音知覚の線形関係を仮定し、滑らかな遷移を達成する。
SoundMorpherは、モーフィング係数とモーフィング音の知覚との明確な関係を探索し、ログメル・スペクトログラムの特徴を活用している。
- 参考スコア(独自算出の注目度): 7.266032317395858
- License:
- Abstract: We present SoundMorpher, an open-world sound morphing method designed to generate perceptually uniform morphing trajectories. Traditional sound morphing techniques typically assume a linear relationship between the morphing factor and sound perception, achieving smooth transitions by linearly interpolating the semantic features of source and target sounds while gradually adjusting the morphing factor. However, these methods oversimplify the complexities of sound perception, resulting in limitations in morphing quality. In contrast, SoundMorpher explores an explicit relationship between the morphing factor and the perception of morphed sounds, leveraging log Mel-spectrogram features. This approach further refines the morphing sequence by ensuring a constant target perceptual difference for each transition and determining the corresponding morphing factors using binary search. To address the lack of a formal quantitative evaluation framework for sound morphing, we propose a set of metrics based on three established objective criteria. These metrics enable comprehensive assessment of morphed results and facilitate direct comparisons between methods, fostering advancements in sound morphing research. Extensive experiments demonstrate the effectiveness and versatility of SoundMorpher in real-world scenarios, showcasing its potential in applications such as creative music composition, film post-production, and interactive audio technologies. Our demonstration and codes are available at~\url{https://xinleiniu.github.io/SoundMorpher-demo/}.
- Abstract(参考訳): 本研究では,知覚的に均一なモーフィング軌跡を生成するために設計された,オープンワールドなモーフィング手法SoundMorpherを提案する。
従来の音響モーフィング技術は、通常、モーフィング因子と音知覚の線形関係を仮定し、モーフィング因子を徐々に調整しながら、音源と対象音の意味的特徴を線形に補間することで滑らかな遷移を達成する。
しかし、これらの手法は音知覚の複雑さを過度に単純化し、音質に限界をもたらす。
対照的にSoundMorpherは、モーフィング係数とモーフィング音の知覚との明確な関係を探索し、ログメル・スペクトログラムの特徴を活用している。
この手法は、各遷移に対する一定の目標知覚差を保証し、バイナリサーチを用いて対応するモーフィング因子を決定することにより、モーフィングシーケンスをさらに洗練する。
音響モーフィングのための公式な定量的評価フレームワークの欠如に対処するため,三つの定められた目標基準に基づく指標セットを提案する。
これらの指標は、モーフィング結果の総合的な評価を可能にし、方法間の直接比較を促進し、モーフィング研究の進歩を促進する。
大規模な実験は、現実のシナリオにおけるSoundMorpherの有効性と汎用性を実証し、クリエイティブ・ミュージック・コンポジション、映画ポストプロダクション、インタラクティブオーディオ技術などの応用におけるその可能性を示している。
私たちのデモとコードは、~\url{https://xinleiniu.github.io/SoundMorpher-demo/}で公開されています。
関連論文リスト
- Audio Texture Manipulation by Exemplar-Based Analogy [3.7209456282942734]
音響テクスチャ操作のための模範的な類似モデルを提案する。
テキストベースの命令を条件付けする代わりに,ペア音声の例を用いる。
我々は,本モデルがテキスト条件ベースラインより優れているという評価と知覚的研究を通して示す。
論文 参考訳(メタデータ) (2025-01-21T18:58:38Z) - Contrastive Learning from Synthetic Audio Doppelgangers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Neural Crossbreed: Neural Based Image Metamorphosis [11.357156231073862]
本稿では,入力画像の意味的変化を潜時空間で学習し,モーフィング効果を生み出すフィードフォワードニューラルネットワークを提案する。
ネットワークは意味的変化を学習するため、ユーザが明示的な対応を指定せずに意味のある中間画像のシーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-09-02T08:56:47Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Not made for each other- Audio-Visual Dissonance-based Deepfake
Detection and Localization [7.436429318051601]
本稿では,MDS(Modality Dissonance Score)と呼ばれる音声と視覚の相違に基づくディープフェイクビデオの検出を提案する。
MDSは、ビデオ内の音声と視覚セグメント間の相似性のスコアの集合として計算される。
われわれの手法は最先端の技術を7%も上回っている。
論文 参考訳(メタデータ) (2020-05-29T06:09:33Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。