論文の概要: MonoFormer: One Transformer for Both Diffusion and Autoregression
- arxiv url: http://arxiv.org/abs/2409.16280v1
- Date: Tue, 24 Sep 2024 17:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 04:57:52.733057
- Title: MonoFormer: One Transformer for Both Diffusion and Autoregression
- Title(参考訳): MonoFormer: 拡散と自己回帰の両方のための1つのトランスフォーマー
- Authors: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang,
- Abstract要約: 本稿では,自己回帰と拡散の両面において1つの変圧器を共有するという,単純な考え方を提案する。
実験結果から,本手法は現在の最先端手法に匹敵する画像生成性能が得られた。
- 参考スコア(独自算出の注目度): 70.81047437281583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.
- Abstract(参考訳): 既存の多くのマルチモーダリティ手法は、自動回帰ベースの離散テキスト生成と拡散ベースの連続的な視覚生成のために別々のバックボーン、あるいは、テキストと視覚の両方に自己回帰を使用するために視覚データを離散化することで同じバックボーンを使用する。
本稿では,自己回帰と拡散の両面において1つの変圧器を共有するという,単純な考え方を提案する。
実現可能性には2つの主な側面がある。
(i)トランスは、視覚発生のための拡散にうまく適用され、
(II) 自己回帰と拡散のためのトランスフォーマートレーニングは非常に類似しており、拡散が双方向の注意マスクと自己回帰が因果の注意マスクである点だけに違いがある。
実験結果から,本手法は現在の最先端手法に匹敵する画像生成性能を実現し,テキスト生成能力の維持を図っている。
このプロジェクトはhttps://monoformer.github.io/.comで公開されている。
関連論文リスト
- Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - Enforcing Paraphrase Generation via Controllable Latent Diffusion [60.82512050963046]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。
実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。
論文 参考訳(メタデータ) (2024-04-13T09:24:32Z) - CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion [36.95767748269613]
テキストと画像の拡散性能を向上させる革新的なカスケードフレームワークであるCogView3を提案する。
CogView3は、テキスト・ツー・イメージ生成の領域でリレー拡散を実装する最初のモデルである。
実験の結果,現在最先端のオープンソーステキスト・画像拡散モデルであるSDXLを,人間による評価では77.0%上回った。
論文 参考訳(メタデータ) (2024-03-08T07:32:50Z) - InfoDiffusion: Information Entropy Aware Diffusion Process for
Non-Autoregressive Text Generation [33.52794666968048]
本稿では,非自己回帰的テキスト拡散モデルであるInfoDiffusionを提案する。
提案手法は「キーフォファースト」生成戦略を導入し,テキスト情報量に基づいてノイズスケジュールを組み込む。
実験結果から,InfoDiffusionは生成品質と多様性の点でベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-18T14:01:39Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。