論文の概要: Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
- arxiv url: http://arxiv.org/abs/2411.18447v1
- Date: Wed, 27 Nov 2024 15:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:36.068407
- Title: Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
- Title(参考訳): 騒音増大を考慮した連続自己回帰モデル
- Authors: Marco Pasini, Javier Nistal, Stefan Lattner, George Fazekas,
- Abstract要約: 連続自己回帰モデルは、推論中のエラーの蓄積により、拡張シーケンスよりも生成品質が低下する可能性がある。
本稿では,学習中に入力埋め込みにランダムノイズを注入することにより,この問題に対処する新しい手法を提案する。
この研究は、純粋に自己回帰的な環境で連続的な埋め込みを生成する方法を舗装し、リアルタイムおよびインタラクティブな生成アプリケーションに新たな可能性を開く。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Autoregressive models are typically applied to sequences of discrete tokens, but recent research indicates that generating sequences of continuous embeddings in an autoregressive manner is also feasible. However, such Continuous Autoregressive Models (CAMs) can suffer from a decline in generation quality over extended sequences due to error accumulation during inference. We introduce a novel method to address this issue by injecting random noise into the input embeddings during training. This procedure makes the model robust against varying error levels at inference. We further reduce error accumulation through an inference procedure that introduces low-level noise. Experiments on musical audio generation show that CAM substantially outperforms existing autoregressive and non-autoregressive approaches while preserving audio quality over extended sequences. This work paves the way for generating continuous embeddings in a purely autoregressive setting, opening new possibilities for real-time and interactive generative applications.
- Abstract(参考訳): 自己回帰モデルは通常、離散トークンのシーケンスに適用されるが、最近の研究は、自己回帰的な方法で連続的な埋め込みのシーケンスを生成することも実現可能であることを示唆している。
しかし、このような連続自己回帰モデル(CAM)は、推論中のエラーの蓄積により、拡張シーケンスよりも生成品質が低下する可能性がある。
本稿では,学習中に入力埋め込みにランダムノイズを注入することにより,この問題に対処する新しい手法を提案する。
この手順により、モデルは推論時に様々なエラーレベルに対して堅牢になる。
低レベルのノイズを発生させる推論手順により、エラーの蓄積をさらに削減する。
音楽音声生成の実験では、CAMは既存の自己回帰的・非自己回帰的アプローチよりも大幅に優れ、拡張シーケンスよりも音質を保っている。
この研究は、純粋に自己回帰的な環境で連続的な埋め込みを生成する方法を舗装し、リアルタイムおよびインタラクティブな生成アプリケーションに新たな可能性を開く。
関連論文リスト
- Beyond Fixed Horizons: A Theoretical Framework for Adaptive Denoising Diffusions [1.9116784879310031]
本稿では, ノイズ発生過程とノイズ発生過程の両方において, 時間均質な構造を実現する新しい生成拡散モデルを提案する。
モデルの主な特徴は、ターゲットデータへの適応性であり、事前訓練された無条件生成モデルを使用して、様々な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-01-31T18:23:27Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises [38.72460741779243]
ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
論文 参考訳(メタデータ) (2023-02-20T15:14:46Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。