Fugu-MT 論文翻訳(概要): Causal Diffusion Transformers for Generative Modeling

論文の概要: Causal Diffusion Transformers for Generative Modeling

arxiv url: http://arxiv.org/abs/2412.12095v1
Date: Mon, 16 Dec 2024 18:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.573581
Title: Causal Diffusion Transformers for Generative Modeling
Title（参考訳）: 生成モデルのための因果拡散変換器
Authors: Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan,
Abstract要約: 本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。 CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
参考スコア（独自算出の注目度）: 14.71039818798593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion - a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion's multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion's ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.
Abstract（参考訳）: 本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。これは、離散的および連続的なモダリティの両方に親和性があり、LLaMAやGPTといった既存の次世代予測モデルと互換性のある次世代の予測フレームワークである。最近の研究は拡散モデルとARモデルを組み合わせているが、拡散モデルに逐次分解を導入することにより、その性能が大幅に向上し、ARと拡散生成モードのスムーズな遷移を可能にすることを示す。そこで我々はCausalFusionを提案する。CausalFusionはシーケンシャルトークンと拡散ノイズレベルにまたがってデータを2倍に分解するデコーダのみのトランスフォーマーで、ImageNet生成ベンチマークの最先端結果をもたらすと同時に、コンテキスト内推論のための任意の数のトークンを生成するARの利点も享受する。さらに、共同画像生成とキャプションモデルにより、CausalFusionのマルチモーダル能力を実証し、CousalFusionのゼロショットインコンテキスト画像操作能力を示す。この作業が、離散的かつ連続的なデータに対するマルチモーダルモデルのトレーニングに、コミュニティに新たな視点を提供することを期待しています。

関連論文リスト

On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning [14.707830064594056]
拡散オートエンコーダ(DA)は、入力依存の潜在変数を使用して、拡散過程と共に表現をキャプチャする。より良い生成モデリングは、別のクラスの拡散モデル -- 前方(ノイズ)プロセスを学ぶもの -- の第一の目標です。
論文参考訳（メタデータ） (2025-05-30T18:14:09Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文参考訳（メタデータ） (2024-12-31T05:49:00Z)
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文参考訳（メタデータ） (2024-12-24T12:28:19Z)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文参考訳（メタデータ） (2024-12-10T18:13:20Z)
Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。 CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文参考訳（メタデータ） (2024-11-14T04:23:28Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文参考訳（メタデータ） (2023-02-22T18:48:46Z)
Unifying Diffusion Models' Latent Space, with Applications to CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文参考訳（メタデータ） (2022-10-11T15:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。