論文の概要: Gaussian Flow Bridges for Audio Domain Transfer with Unpaired Data
- arxiv url: http://arxiv.org/abs/2405.19497v1
- Date: Wed, 29 May 2024 20:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 19:06:28.713425
- Title: Gaussian Flow Bridges for Audio Domain Transfer with Unpaired Data
- Title(参考訳): 未ペアデータを用いた音声ドメイン転送のためのガウス流橋
- Authors: Eloi Moliner, Sebastian Braun, Hannes Gamper,
- Abstract要約: 本稿では,生成モデルにおけるガウス流橋の可能性について検討する。
提案フレームワークは,2つの決定論的確率フローの一連の実装を通じて,音声信号の分布の異なる輸送問題に対処する。
音声内容の一貫性を維持する上での課題に対処するため,チャンクをベースとしたデータサンプルとノイズの最適輸送結合を含むトレーニング戦略を推奨する。
- 参考スコア(独自算出の注目度): 20.181313153447412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio domain transfer is the process of modifying audio signals to match characteristics of a different domain, while retaining the original content. This paper investigates the potential of Gaussian Flow Bridges, an emerging approach in generative modeling, for this problem. The presented framework addresses the transport problem across different distributions of audio signals through the implementation of a series of two deterministic probability flows. The proposed framework facilitates manipulation of the target distribution properties through a continuous control variable, which defines a certain aspect of the target domain. Notably, this approach does not rely on paired examples for training. To address identified challenges on maintaining the speech content consistent, we recommend a training strategy that incorporates chunk-based minibatch Optimal Transport couplings of data samples and noise. Comparing our unsupervised method with established baselines, we find competitive performance in tasks of reverberation and distortion manipulation. Despite encoutering limitations, the intriguing results obtained in this study underscore potential for further exploration.
- Abstract(参考訳): オーディオドメイン転送(Audio domain transfer)とは、元のコンテンツを保持しながら、異なるドメインの特性に合わせて音声信号を変更するプロセスである。
本稿では,生成モデルにおけるガウス流橋の可能性について検討する。
提案フレームワークは,2つの決定論的確率フローの一連の実装を通じて,音声信号の異なる分布間の伝達問題に対処する。
提案フレームワークは,対象領域の特定の側面を定義する連続制御変数を通じて,対象分布特性の操作を容易にする。
特に、このアプローチはペアの例をトレーニングに頼ってはいません。
音声内容の一貫性を維持する上での課題に対処するため,チャンクをベースとしたデータサンプルとノイズの最適輸送結合を含むトレーニング戦略を推奨する。
教師なし手法と確立されたベースラインを比較すると,残響や歪み操作のタスクにおいて,競争性能が向上することがわかった。
この研究で得られた興味深い結果は、さらなる探査の可能性を浮き彫りにしている。
関連論文リスト
- Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - SimT: Handling Open-set Noise for Domain Adaptive Semantic Segmentation [58.61946589036262]
本稿では,ブラックボックスモデルを用いて,擬似ラベル付きターゲットデータのみにアクセス可能な実用的なドメイン適応(DA)セマンティックセマンティックセマンティクス問題について検討する。
ドメインギャップと2つのドメイン間のラベルシフトのため、擬似ラベル付きターゲットデータには、クローズドセットとオープンセットのラベルノイズが混在している。
DAセマンティックセグメンテーションにおける混合雑音分布をモデル化し、SimTの推定として問題を定式化するための単純なノイズ遷移行列(SimT)を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:48:08Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z) - ANL: Anti-Noise Learning for Cross-Domain Person Re-Identification [25.035093667770052]
2つのモジュールを含むアンチノイズラーニング(ANL)アプローチを提案します。
FDAモジュールは、カメラ回りのコントラスト学習と逆適応を通じて、ID関連サンプルを収集し、ID非関連サンプルを分散するように設計されています。
reliable sample selection(rss)モジュールは、ノイズラベルを訂正し、メインモデルの信頼できるサンプルを選択するために補助モデルを使用する。
論文 参考訳(メタデータ) (2020-12-27T02:38:45Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。