論文の概要: ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2412.07720v2
- Date: Thu, 13 Mar 2025 16:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:44.404194
- Title: ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
- Title(参考訳): ACDiT:自己回帰型条件モデリングと拡散変換器の補間
- Authors: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun,
- Abstract要約: ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
- 参考スコア(独自算出の注目度): 95.80384464922147
- License:
- Abstract: We present ACDiT, a novel Autoregressive blockwise Conditional Diffusion Transformer, that innovatively combines autoregressive and diffusion paradigms for modeling continuous visual information. By introducing a block-wise autoregressive unit, ACDiT offers a flexible interpolation between token-wise autoregression and full-sequence diffusion, bypassing the limitations of discrete tokenization. The generation of each block is formulated as a conditional diffusion process, conditioned on prior blocks. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) on standard diffusion transformer during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We show that ACDiT performs best among all autoregressive baselines under similar model scales on image and video generation tasks. We also demonstrate that benefiting from autoregressive modeling, pretrained ACDiT can be transferred in visual understanding tasks despite being trained with the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. We hope that ACDiT offers a novel perspective on visual autoregressive generation and unlocks new avenues for unified models.
- Abstract(参考訳): 本稿では,連続的な視覚情報をモデル化するための自己回帰的・拡散的パラダイムを革新的に組み合わせた,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
ブロックワイズ自己回帰ユニットを導入することで、ACDiTはトークンワイズ自己回帰とフルシーケンス拡散の間の柔軟な補間を提供し、離散トークン化の制限を回避できる。
各ブロックの生成は、前ブロックに条件付き拡散過程として定式化される。
ACDiTは、トレーニング中に標準拡散トランスフォーマー上でSkip-Causal Attention Mask (SCAM)を作成するのと同じくらい簡単に実装できる。
推論中、プロセスは拡散復号化と自己回帰復号化を繰り返すので、KV-Cacheをフル活用できる。
本稿では、ACDiTが、画像および映像生成タスクにおいて、同様のモデルスケールで、全ての自己回帰ベースラインの中で最高の性能を示すことを示す。
また, 自己回帰モデルにより, 事前学習したACDiTを, 拡散目標を訓練しても視覚的理解タスクに伝達できることを実証した。
自己回帰モデリングと拡散のトレードオフの分析は、長距離視覚生成タスクで使用されるACDiTの可能性を示している。
我々は、ACDiTが視覚的自己回帰生成の新しい視点を提供し、統一モデルのための新しい道を開くことを願っている。
関連論文リスト
- Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。
CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文 参考訳(メタデータ) (2024-12-16T18:59:29Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。