論文の概要: Latent Autoregressive Source Separation
- arxiv url: http://arxiv.org/abs/2301.08562v1
- Date: Mon, 9 Jan 2023 17:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 13:48:58.783314
- Title: Latent Autoregressive Source Separation
- Title(参考訳): 遅延自己回帰音源分離
- Authors: Emilian Postolache, Giorgio Mariani, Michele Mancusi, Andrea Santilli,
Luca Cosmo, Emanuele Rodol\`a
- Abstract要約: 本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
- 参考スコア(独自算出の注目度): 5.871054749661012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models have achieved impressive results over a wide range of
domains in terms of generation quality and downstream task performance. In the
continuous domain, a key factor behind this success is the usage of quantized
latent spaces (e.g., obtained via VQ-VAE autoencoders), which allow for
dimensionality reduction and faster inference times. However, using existing
pre-trained models to perform new non-trivial tasks is difficult since it
requires additional fine-tuning or extensive training to elicit prompting. This
paper introduces LASS as a way to perform vector-quantized Latent
Autoregressive Source Separation (i.e., de-mixing an input signal into its
constituent sources) without requiring additional gradient-based optimization
or modifications of existing models. Our separation method relies on the
Bayesian formulation in which the autoregressive models are the priors, and a
discrete (non-parametric) likelihood function is constructed by performing
frequency counts over latent sums of addend tokens. We test our method on
images and audio with several sampling strategies (e.g., ancestral, beam
search) showing competitive results with existing approaches in terms of
separation quality while offering at the same time significant speedups in
terms of inference time and scalability to higher dimensional data.
- Abstract(参考訳): 自動回帰モデルは、生成品質とダウンストリームタスクパフォーマンスという観点で、幅広いドメインで印象的な成果を上げています。
連続領域において、この成功の鍵となる要因は量子化された潜在空間(例えば vq-vae オートエンコーダによって得られる)の使用である。
しかし、新しい非自明なタスクを実行するために既存の事前学習モデルを使用することは、プロンプトを誘発するために追加の微調整や広範囲な訓練を必要とするため困難である。
本稿では,ベクトル量子化された潜在自己回帰的音源分離(すなわち,入力信号をその構成源にデミックスする)を,既存モデルの勾配に基づく最適化や修正を必要とせずに行う手法としてlassを提案する。
分離法は,自己回帰モデルが先行するベイズ式に依存しており,加算トークンの潜在和の周波数カウントを行うことで離散的(非パラメトリックな)確率関数を構築する。
本手法は,複数のサンプリング戦略(例: ancestral, beam search)を用いて画像と音声の分離品質の面での競合性を示すとともに,推定時間と高次元データへのスケーラビリティの面での大幅な高速化を提供する。
関連論文リスト
- Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。
時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。
量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文 参考訳(メタデータ) (2024-04-15T07:51:40Z) - Variational Bayes image restoration with compressive autoencoders [4.879530644978008]
逆問題の正規化は、計算イメージングにおいて最重要となる。
本研究では,まず,最先端生成モデルの代わりに圧縮型オートエンコーダを提案する。
第2の貢献として、変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation [32.74923906921339]
拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、それらの応用は本質的に遅い生成速度によって妨げられる。
本稿では,拡散モデルの生成効率を向上させるために,各サンプリングステップで動的に計算資源を割り当てる適応フレームワークであるAdaDiffを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。