論文の概要: Disentanglement of Sources in a Multi-Stream Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2510.15669v1
- Date: Fri, 17 Oct 2025 13:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.644997
- Title: Disentanglement of Sources in a Multi-Stream Variational Autoencoder
- Title(参考訳): マルチストリーム変分オートエンコーダにおける音源の歪み
- Authors: Veranika Boukun, Jörg Lücke,
- Abstract要約: 変分オートエンコーダ(VAE)は、非絡み合った表現を学習する問題に対処する主要な手法である。
ここでは、個別のラテントを用いて、個々のソースのVAE表現を組み合わせることで、異なるアプローチを探求する。
- 参考スコア(独自算出の注目度): 4.562056072136493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational autoencoders (VAEs) are a leading approach to address the problem of learning disentangled representations. Typically a single VAE is used and disentangled representations are sought in its continuous latent space. Here we explore a different approach by using discrete latents to combine VAE-representations of individual sources. The combination is done based on an explicit model for source combination, and we here use a linear combination model which is well suited, e.g., for acoustic data. We formally define such a multi-stream VAE (MS-VAE) approach, derive its inference and learning equations, and we numerically investigate its principled functionality. The MS-VAE is domain-agnostic, and we here explore its ability to separate sources into different streams using superimposed hand-written digits, and mixed acoustic sources in a speaker diarization task. We observe a clear separation of digits, and on speaker diarization we observe an especially low rate of missed speakers. Numerical experiments further highlight the flexibility of the approach across varying amounts of supervision and training data.
- Abstract(参考訳): 変分オートエンコーダ(VAE)は、非絡み合った表現を学習する問題に対処する主要な手法である。
通常、1つのVAEを使用し、その連続潜在空間において非絡み合わされた表現を求める。
ここでは、個別のラテントを用いて、個々のソースのVAE表現を組み合わせることで、異なるアプローチを探求する。
この組み合わせは、ソース結合の明示的なモデルに基づいて行われ、音響データによく適合する線形結合モデルを用いる。
このようなマルチストリームVAE(MS-VAE)アプローチを正式に定義し,その推論と学習方程式を導出し,その原理的機能を数値的に検討する。
筆者らは,MS-VAEはドメインに依存しないため,重畳された手書き文字と話者ダイアリゼーションタスクにおける混合音源を用いて,音源を異なるストリームに分離する機能について検討する。
話者ダイアリゼーションでは,特に話者の欠落率の低さが観察される。
数値実験は、様々な量の監督と訓練データにまたがるアプローチの柔軟性をさらに強調する。
関連論文リスト
- Mixture of Dynamical Variational Autoencoders for Multi-Source
Trajectory Modeling and Separation [28.24190848937156]
複数の移動音源からなるシステムの力学をモデル化するための動的変分オートエンコーダ(MixDVAE)の混合を提案する。
コンピュータビジョンタスクとオーディオ処理タスク,すなわち単一チャンネルオーディオソース分離という2つのタスクで提案したMixDVAEモデルの汎用性について述べる。
論文 参考訳(メタデータ) (2023-12-07T09:36:31Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。