論文の概要: ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction
- arxiv url: http://arxiv.org/abs/2410.04721v1
- Date: Mon, 7 Oct 2024 03:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:17:53.751957
- Title: ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction
- Title(参考訳): ACDC:拡散補正を用いた自己回帰コヒーレント多モード生成
- Authors: Hyungjin Chung, Dohun Lee, Jong Chul Ye,
- Abstract要約: 自己回帰モデル(ARM)と拡散モデル(DM)は、生成モデルにおける2つの主要なパラダイムを表す。
拡散補正(Diffusion Correction: ACDC)を用いた自己回帰型コヒーレント多モード生成について紹介する。
ACDCは、追加の微調整を必要とせず、推論段階でARMとDMの両方の強度を組み合わせる。
- 参考スコア(独自算出の注目度): 55.03585818289934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive models (ARMs) and diffusion models (DMs) represent two leading paradigms in generative modeling, each excelling in distinct areas: ARMs in global context modeling and long-sequence generation, and DMs in generating high-quality local contexts, especially for continuous data such as images and short videos. However, ARMs often suffer from exponential error accumulation over long sequences, leading to physically implausible results, while DMs are limited by their local context generation capabilities. In this work, we introduce Autoregressive Coherent multimodal generation with Diffusion Correction (ACDC), a zero-shot approach that combines the strengths of both ARMs and DMs at the inference stage without the need for additional fine-tuning. ACDC leverages ARMs for global context generation and memory-conditioned DMs for local correction, ensuring high-quality outputs by correcting artifacts in generated multimodal tokens. In particular, we propose a memory module based on large language models (LLMs) that dynamically adjusts the conditioning texts for the DMs, preserving crucial global context information. Our experiments on multimodal tasks, including coherent multi-frame story generation and autoregressive video generation, demonstrate that ACDC effectively mitigates the accumulation of errors and significantly enhances the quality of generated outputs, achieving superior performance while remaining agnostic to specific ARM and DM architectures. Project page: https://acdc2025.github.io/
- Abstract(参考訳): 自己回帰モデル(英語版)(ARM)と拡散モデル(英語版)(DM)は、生成モデリングにおいて2つの主要なパラダイムを表現し、それぞれ異なる領域で優れている。
しかし、ARMは長いシーケンスで指数関数的なエラーの蓄積に悩まされ、物理的に予測不可能な結果となり、DMは局所的なコンテキスト生成能力によって制限される。
本研究では,自動回帰コヒーレント多モード生成と拡散補正(Diffusion Correction, ACDC)を導入する。
ACDCはARMをグローバルなコンテキスト生成とメモリ条件のDMに利用し、生成したマルチモーダルトークンのアーティファクトを補正することで高品質な出力を確保する。
特に,大言語モデル(LLM)に基づくメモリモジュールを提案し,DMの条件文を動的に調整し,重要なグローバルコンテキスト情報を保存する。
コーヒーレントなマルチフレームストーリー生成や自己回帰ビデオ生成を含むマルチモーダルタスクの実験では、ACDCがエラーの蓄積を効果的に軽減し、生成した出力の品質を大幅に向上し、特定のARMやDMアーキテクチャに非依存なまま、優れた性能を実現していることを示す。
プロジェクトページ: https://acdc2025.github.io/
関連論文リスト
- Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は、言語モデリングにおいて有望であるが、テキスト生成や言語理解といった中核的な言語タスクにおけるスケーラビリティと有効性は、未解明のままである。
本稿では,自動回帰モデル(ARM)に匹敵するスケーリング率と比較的小さな計算ギャップを実証し,MDMに対する最初のスケーリング法則を確立する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - CCDM: Continuous Conditional Diffusion Models for Image Generation [22.70942688582302]
連続条件生成モデリング(CCGM)は、スカラー連続変数に基づく高次元データ(典型的には画像)の分布を推定することを目的としている。
既存のConditional Adversarial Networks (CcGANs) は、当初、このタスクのために設計されていたが、その逆のトレーニングメカニズムは、非常にスパースなデータや不均衡なデータに対して脆弱なままである。
生成画像の品質を高めるために、CcGANを条件拡散モデル(CDM)に置き換えることが有望な方法である。
論文 参考訳(メタデータ) (2024-05-06T15:10:19Z) - Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension [6.602323571343169]
学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
論文 参考訳(メタデータ) (2024-04-27T19:42:51Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。