論文の概要: Masked Audio Generation using a Single Non-Autoregressive Transformer
- arxiv url: http://arxiv.org/abs/2401.04577v1
- Date: Tue, 9 Jan 2024 14:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:36:50.529747
- Title: Masked Audio Generation using a Single Non-Autoregressive Transformer
- Title(参考訳): 単一非自己回帰変換器を用いたマスケオーディオ生成
- Authors: Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre
D\'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
- Abstract要約: MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
- 参考スコア(独自算出の注目度): 90.11646612273965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MAGNeT, a masked generative sequence modeling method that
operates directly over several streams of audio tokens. Unlike prior work,
MAGNeT is comprised of a single-stage, non-autoregressive transformer. During
training, we predict spans of masked tokens obtained from a masking scheduler,
while during inference we gradually construct the output sequence using several
decoding steps. To further enhance the quality of the generated audio, we
introduce a novel rescoring method in which, we leverage an external
pre-trained model to rescore and rank predictions from MAGNeT, which will be
then used for later decoding steps. Lastly, we explore a hybrid version of
MAGNeT, in which we fuse between autoregressive and non-autoregressive models
to generate the first few seconds in an autoregressive manner while the rest of
the sequence is being decoded in parallel. We demonstrate the efficiency of
MAGNeT for the task of text-to-music and text-to-audio generation and conduct
an extensive empirical evaluation, considering both objective metrics and human
studies. The proposed approach is comparable to the evaluated baselines, while
being significantly faster (x7 faster than the autoregressive baseline).
Through ablation studies and analysis, we shed light on the importance of each
of the components comprising MAGNeT, together with pointing to the trade-offs
between autoregressive and non-autoregressive modeling, considering latency,
throughput, and generation quality. Samples are available on our demo page
https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
- Abstract(参考訳): 本稿では,複数の音声トークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法MAGNeTを紹介する。
前作とは異なり、MAGNeTは単段非自己回帰トランスで構成されている。
学習中,マスキングスケジューラから得られたマスキングトークンのスパンを予測し,推論中,複数の復号ステップを用いて徐々に出力シーケンスを構築する。
生成音声の品質をさらに高めるために,外部事前学習モデルを利用してマグネットから予測値を再調整・ランク付けし,後段の復号処理に使用する新しいリコーリング法を提案する。
最後に,自己回帰モデルと非自己回帰モデルを融合して,最初の数秒を自己回帰的に生成し,残りのシーケンスを並列に復号する,ハイブリッドバージョンのマグネットを探索する。
テキスト・ツー・ミュージックおよびテキスト・ツー・オーディオ生成のタスクにおけるマグネットの効率を実証し,客観的指標と人間研究の両方を考慮し,広範な経験的評価を行う。
提案手法は評価されたベースラインに匹敵するが、かなり高速である(自己回帰ベースラインよりもx7が速い)。
アブレーション研究と解析により,マグネットを構成する各成分の重要性,および自己回帰モデルと非自己回帰モデルとのトレードオフ,レイテンシ,スループット,生成品質について考察した。
サンプルはデモページhttps://pages.cs.huji.ac.il/adiyoss-lab/magnetで入手できます。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Sequential Transfer Learning to Decode Heard and Imagined Timbre from
fMRI Data [0.0]
機能的磁気共鳴イメージング(fMRI)データを用いたトランスフォーマーのシーケンシャルトランスフォーメーション学習フレームワークを提案する。
第1フェーズでは、Next Thought Prediction上でスタック化されたエンコーダ変換アーキテクチャを事前訓練する。
第2フェーズでは、同じ音色を聴きながら、fMRIデータの2つのシーケンスが記録されたかどうかを予測する教師付きタスクにおいて、モデルを微調整し、新たなモデルを訓練する。
論文 参考訳(メタデータ) (2023-05-22T16:58:26Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。