論文の概要: ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2412.07720v1
- Date: Tue, 10 Dec 2024 18:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:50.732627
- Title: ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
- Title(参考訳): ACDiT:自己回帰型条件モデリングと拡散変換器の補間
- Authors: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun,
- Abstract要約: 連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
- 参考スコア(独自算出の注目度): 95.80384464922147
- License:
- Abstract: The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.
- Abstract(参考訳): 包括的マルチモーダルモデルに対する最近の関心の高まりは、多様なモダリティの統合を必要としている。
しかし、統一は異なる方法論に悩まされている。
連続的な視覚生成は、テキスト領域における自己回帰モデリングから分岐しているにもかかわらず、完全系列拡散に基づくアプローチを必要とする。
自己回帰モデル、すなわち過去の決定論的経験に基づいて未来を予測することは、視覚生成モデルと潜在的に統合されたマルチモーダルモデルの両方を開発する上で重要であると仮定する。
本稿では,自己回帰モデルと全パラメータ拡散の補間による視覚情報のモデル化について検討する。
本稿では,自己回帰単位のブロックサイズ,すなわち自己回帰単位のサイズをフレキシブルに調整し,トークン単位の自己回帰と全列拡散の相互関係を補間する自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
ACDiTの実装は簡単で、トレーニング中にSkip-Causal Attention Mask (SCAM)を作成するのと同じくらい簡単である。
推論中、プロセスは拡散復号化と自己回帰復号化を繰り返すので、KV-Cacheをフル活用できる。
本稿では,映像生成タスクにおけるACDiTの有効性を検証する。
また, 自己回帰モデルにより, ACDiTは拡散目標を訓練しても視覚理解タスクにシームレスに使用できることを示した。
自己回帰モデリングと拡散のトレードオフの分析は、長距離視覚生成タスクで使用されるACDiTの可能性を示している。
これらの強みは、将来の統一モデルのバックボーンとして期待できる。
関連論文リスト
- Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。
CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文 参考訳(メタデータ) (2024-12-16T18:59:29Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。