Fugu-MT 論文翻訳(概要): Mixture of Dynamical Variational Autoencoders for Multi-Source Trajectory Modeling and Separation

論文の概要: Mixture of Dynamical Variational Autoencoders for Multi-Source Trajectory Modeling and Separation

arxiv url: http://arxiv.org/abs/2312.04167v1
Date: Thu, 7 Dec 2023 09:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 15:29:51.540914
Title: Mixture of Dynamical Variational Autoencoders for Multi-Source Trajectory Modeling and Separation
Title（参考訳）: マルチソース軌道モデリングと分離のための動的変分オートエンコーダの混合
Authors: Xiaoyu Lin, Laurent Girin, Xavier Alameda-Pineda
Abstract要約: 複数の移動音源からなるシステムの力学をモデル化するための動的変分オートエンコーダ(MixDVAE)の混合を提案する。コンピュータビジョンタスクとオーディオ処理タスク,すなわち単一チャンネルオーディオソース分離という2つのタスクで提案したMixDVAEモデルの汎用性について述べる。
参考スコア（独自算出の注目度）: 28.24190848937156
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we propose a latent-variable generative model called mixture of dynamical variational autoencoders (MixDVAE) to model the dynamics of a system composed of multiple moving sources. A DVAE model is pre-trained on a single-source dataset to capture the source dynamics. Then, multiple instances of the pre-trained DVAE model are integrated into a multi-source mixture model with a discrete observation-to-source assignment latent variable. The posterior distributions of both the discrete observation-to-source assignment variable and the continuous DVAE variables representing the sources content/position are estimated using a variational expectation-maximization algorithm, leading to multi-source trajectories estimation. We illustrate the versatility of the proposed MixDVAE model on two tasks: a computer vision task, namely multi-object tracking, and an audio processing task, namely single-channel audio source separation. Experimental results show that the proposed method works well on these two tasks, and outperforms several baseline methods.
Abstract（参考訳）: 本稿では,複数の移動音源からなるシステムの力学をモデル化するための動的変分オートエンコーダ(MixDVAE)を混合した潜時変分生成モデルを提案する。 DVAEモデルは、ソースのダイナミクスをキャプチャするために、単一のソースデータセットで事前トレーニングされる。次に、事前学習されたdvaeモデルの複数のインスタンスを、離散的観測-ソース割り当て潜在変数を持つ多元混合モデルに統合する。離散観測-ソース割り当て変数と、ソースの内容/位置を表す連続dvae変数の両方の後方分布を変分期待最大化アルゴリズムを用いて推定し、多元軌道推定に繋がる。提案するMixDVAEモデルの汎用性について,コンピュータビジョンタスク,マルチオブジェクトトラッキング,オーディオ処理タスク,すなわち単一チャンネルオーディオソース分離の2つのタスクについて説明する。実験の結果,提案手法はこれら2つのタスクでうまく動作し,複数のベースライン法を上回った。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Disentanglement of Sources in a Multi-Stream Variational Autoencoder [4.562056072136493]
変分オートエンコーダ(VAE)は、非絡み合った表現を学習する問題に対処する主要な手法である。ここでは、個別のラテントを用いて、個々のソースのVAE表現を組み合わせることで、異なるアプローチを探求する。
論文参考訳（メタデータ） (2025-10-17T13:54:56Z)
DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation [53.323488295994395]
ソースフリーアクティブドメイン適応(SFADA)は、アクティブラーニングによって選択された限られた手動ラベルを用いて、ソースモデルから未ラベルのターゲットドメインへの知識伝達を強化する。マルチモーダル・ファンデーション・モデルを用いたデュアルアクティブ・ラーニング(DAM)を提案する。大規模な実験では、DAMは既存のメソッドを一貫して上回り、複数のSFADAベンチマークとアクティブな学習戦略で新しい最先端の手法を設定できる。
論文参考訳（メタデータ） (2025-09-29T15:06:56Z)
SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging [60.83635006372403]
textttSE-Mergingは自己拡張型モデルマージフレームワークである。 textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
論文参考訳（メタデータ） (2025-06-22T18:38:41Z)
Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling [48.96034602889216]
Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。 2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-05-23T01:45:47Z)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳（メタデータ） (2024-12-11T18:57:32Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions [42.293444710522294]
Continual Multi-source Adaptation to Dynamic Distributions (CONTRAST) は、複数のソースモデルを最適に組み合わせて動的テストデータに適応する新しい手法である。提案手法は,ソースモデルを最適に組み合わせ,モデル更新の優先順位付けを最小限に行うことができることを示す。
論文参考訳（メタデータ） (2024-01-04T22:23:56Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。本研究では,データログ類似度を厳密に近似できる変動目標について考察する。我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文参考訳（メタデータ） (2023-09-01T10:32:21Z)
Improving Out-of-Distribution Robustness of Classifiers via Generative Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文参考訳（メタデータ） (2023-07-23T03:53:53Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Unsupervised Multiple-Object Tracking with a Dynamical Variational Autoencoder [25.293475313066967]
動的変分オートエンコーダ(DVAE)に基づく多目的追跡(MOT)のための教師なし確率モデルと関連する推定アルゴリズムを提案する。 DVAEは潜伏変数の深い生成モデルであり、時間的シーケンスのモデリングのための変分オートエンコーダの拡張と見なすことができる。 DVAE-UMOTには、未ラベルの合成データセットの単一オブジェクト軌道上で事前訓練された後に、オブジェクトのダイナミクスをモデル化するために含まれている。
論文参考訳（メタデータ） (2022-02-18T17:27:27Z)
Deep Variational Models for Collaborative Filtering-based Recommender Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-27T08:59:39Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-20T16:10:07Z)
Relaxed-Responsibility Hierarchical Discrete VAEs [3.976291254896486]
textitRelaxed-Responsibility Vector-Quantisationを導入する。我々は、様々な標準データセットに対して、最先端のビット/ディミット結果を得る。
論文参考訳（メタデータ） (2020-07-14T19:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。