論文の概要: Unsupervised Composable Representations for Audio
- arxiv url: http://arxiv.org/abs/2408.09792v1
- Date: Mon, 19 Aug 2024 08:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:04:37.433489
- Title: Unsupervised Composable Representations for Audio
- Title(参考訳): 音声のための教師なし構成可能表現
- Authors: Giovanni Bindi, Philippe Esling,
- Abstract要約: 現在の生成モデルは高品質な人工物を生成することができるが、構成的推論に苦しむことが示されている。
本稿では,音楽データに対する合成表現学習の課題,特に教師なし設定を対象とする問題に焦点をあてる。
本稿では、フレキシブルな自動符号化目的によって定義される、明示的な構成帰納バイアスを利用するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.9888599167642799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current generative models are able to generate high-quality artefacts but have been shown to struggle with compositional reasoning, which can be defined as the ability to generate complex structures from simpler elements. In this paper, we focus on the problem of compositional representation learning for music data, specifically targeting the fully-unsupervised setting. We propose a simple and extensible framework that leverages an explicit compositional inductive bias, defined by a flexible auto-encoding objective that can leverage any of the current state-of-art generative models. We demonstrate that our framework, used with diffusion models, naturally addresses the task of unsupervised audio source separation, showing that our model is able to perform high-quality separation. Our findings reveal that our proposal achieves comparable or superior performance with respect to other blind source separation methods and, furthermore, it even surpasses current state-of-art supervised baselines on signal-to-interference ratio metrics. Additionally, by learning an a-posteriori masking diffusion model in the space of composable representations, we achieve a system capable of seamlessly performing unsupervised source separation, unconditional generation, and variation generation. Finally, as our proposal works in the latent space of pre-trained neural audio codecs, it also provides a lower computational cost with respect to other neural baselines.
- Abstract(参考訳): 現在の生成モデルは高品質な人工物を生成することができるが、単純な要素から複雑な構造を生成する能力として定義できる構成的推論に苦戦することが示されている。
本稿では,音楽データに対する合成表現学習の課題,特に教師なし設定を対象とする問題に焦点をあてる。
本稿では,現在最先端の生成モデルのいずれかを活用可能な,フレキシブルな自動符号化目標によって定義された,明示的な構成帰納バイアスを活用する,シンプルで拡張可能なフレームワークを提案する。
拡散モデルを用いた我々のフレームワークは、教師なし音源分離の課題に自然に対処し、高品質な分離を行うことができることを示す。
その結果,提案手法は,他のブラインド音源分離手法と同等あるいは優れた性能を示し,さらに,信号対干渉比の計測値に対する現状管理ベースラインを超越していることが明らかとなった。
さらに,コンポーザブル表現の空間において,非教師なし音源分離,無条件生成,変分生成をシームレスに行うことができるシステムを実現する。
最後に、我々の提案は、トレーニング済みのニューラルオーディオコーデックの潜在領域で動作するため、他のニューラルベースラインに対する計算コストも低くなります。
関連論文リスト
- MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion [14.907473847787541]
人間の骨格モデリングのための統合フレームワークとして,Masked Diffusion Conditional (MacDiff)を提案する。
まず,拡散モデルを用いて効率的な骨格表現学習を行う。
MacDiffは、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-16T17:06:10Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Structure-Regularized Attention for Deformable Object Representation [17.120035855774344]
文脈依存のキャプチャは、ディープニューラルネットワークの表現力を改善するのに有用であることが証明されている。
自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。
本稿では,データに固有の構造的依存関係をモデル化することにより,コンテキスト利用の恩恵を受けることができる変形可能なオブジェクトの学習表現について考察する。
論文 参考訳(メタデータ) (2021-06-12T03:10:17Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。