論文の概要: Latent Fourier Transform
- arxiv url: http://arxiv.org/abs/2604.17986v1
- Date: Mon, 20 Apr 2026 09:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.783458
- Title: Latent Fourier Transform
- Title(参考訳): 潜時フーリエ変換
- Authors: Mason Wang, Cheng-Zhi Anna Huang,
- Abstract要約: LatentFTは、生成音楽モデルのための新しい周波数領域制御を提供するフレームワークである。
トレーニング中、周波数領域の潜伏者をマスキングすることで、推論時にコヒーレントに操作できる表現を生成する。
実験と聴力試験により,LatentFTはベースラインに比べて条件の順守と品質を向上させることが示された。
- 参考スコア(独自算出の注目度): 1.6781763863175045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Latent Fourier Transform (LatentFT), a framework that provides novel frequency-domain controls for generative music models. LatentFT combines a diffusion autoencoder with a latent-space Fourier transform to separate musical patterns by timescale. By masking latents in the frequency domain during training, our method yields representations that can be manipulated coherently at inference. This allows us to generate musical variations and blends from reference examples while preserving characteristics at desired timescales, which are specified as frequencies in the latent space. LatentFT parallels the role of the equalizer in music production: while traditional equalizers operates on audible frequencies to shape timbre, LatentFT operates on latent-space frequencies to shape musical structure. Experiments and listening tests show that LatentFT improves condition adherence and quality compared to baselines. We also present a technique for hearing frequencies in the latent space in isolation, and show different musical attributes reside in different regions of the latent spectrum. Our results show how frequency-domain control in latent space provides an intuitive, continuous frequency axis for conditioning and blending, advancing us toward more interpretable and interactive generative music models.
- Abstract(参考訳): 生成音楽モデルに新しい周波数領域制御を提供するフレームワークであるLatent Fourier Transform(LatentFT)を紹介する。
LatentFTは拡散オートエンコーダと潜時空間フーリエ変換を組み合わせて、時間スケールで音楽パターンを分離する。
トレーニング中、周波数領域の潜伏者をマスキングすることで、推論時にコヒーレントに操作できる表現を生成する。
これにより、遅延空間の周波数として指定される所望の時間スケールで特性を保ちながら、参照例から音楽のバリエーションとブレンドを生成することができる。
従来の等化器は音色を形作るために可聴周波数で作動するのに対し、LatentFTは音色を形作るために潜在空間周波数で作動する。
実験と聴力試験により,LatentFTはベースラインに比べて条件の順守と品質を向上させることが示された。
また,潜時空間における聴覚周波数を分離する手法を提案し,その特性が潜時スペクトルの異なる領域に存在することを示す。
この結果から,潜在空間における周波数領域制御が,より解釈可能でインタラクティブな生成音楽モデルに向けて,直感的かつ連続的な周波数軸を提供することを示す。
関連論文リスト
- Fourier Basis Mapping: A Time-Frequency Learning Framework for Time Series Forecasting [25.304812011127257]
本稿では,時間周波数空間におけるフーリエ基底展開とマッピングによる時間周波数特徴の統合手法を提案する。
本手法は時間的特性を保ちながら明確な周波数特徴を抽出する。
結果は、長期および短期の予測タスクにおいて、多様な実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2025-07-13T01:45:27Z) - LSCD: Lomb-Scargle Conditioned Diffusion for Time series Imputation [55.800319453296886]
欠落または不規則なサンプルデータを持つ時系列は、機械学習において永続的な課題である。
我々は,不規則サンプルデータのパワースペクトルの信頼性の高い計算を可能にする,異なるLombiable-Scargle層を導入する。
論文 参考訳(メタデータ) (2025-06-20T14:48:42Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis [9.969451740838418]
時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。
NFM はフーリエ変換 (FT) の2つの重要な性質 (i) 有限長時系列をフーリエ領域の関数としてモデル化する能力 (ii) フーリエ領域内のデータ操作の能力 (ii) に基礎を置いている。
NFMは幅広いタスクで最先端のパフォーマンスを達成しており、テスト時にこれまで見つからなかったサンプリングレートを持つ時系列シナリオに挑戦する。
論文 参考訳(メタデータ) (2024-10-07T02:39:55Z) - FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining [71.46369218331215]
Image derainingは雨が降る画像から雨の跡を取り除き、透明な背景を復元することを目的としている。
本稿では,FourierMambaという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:58:59Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。