論文の概要: Dimba: Transformer-Mamba Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.01159v1
- Date: Mon, 3 Jun 2024 09:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:38:29.328334
- Title: Dimba: Transformer-Mamba Diffusion Models
- Title(参考訳): Dimba: Transformer-Mamba拡散モデル
- Authors: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Youqiang Zhang, Junshi Huang,
- Abstract要約: 本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。
大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
- 参考スコア(独自算出の注目度): 32.04949173308355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper unveils Dimba, a new text-to-image diffusion model that employs a distinctive hybrid architecture combining Transformer and Mamba elements. Specifically, Dimba sequentially stacked blocks alternate between Transformer and Mamba layers, and integrate conditional information through the cross-attention layer, thus capitalizing on the advantages of both architectural paradigms. We investigate several optimization strategies, including quality tuning, resolution adaption, and identify critical configurations necessary for large-scale image generation. The model's flexible design supports scenarios that cater to specific resource constraints and objectives. When scaled appropriately, Dimba offers substantial throughput and a reduced memory footprint relative to conventional pure Transformers-based benchmarks. Extensive experiments indicate that Dimba achieves comparable performance compared with benchmarks in terms of image quality, artistic rendering, and semantic control. We also report several intriguing properties of architecture discovered during evaluation and release checkpoints in experiments. Our findings emphasize the promise of large-scale hybrid Transformer-Mamba architectures in the foundational stage of diffusion models, suggesting a bright future for text-to-image generation.
- Abstract(参考訳): 本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。
具体的には、DimbaはTransformer層とMamba層の間で順次積み重ねられたブロックを交互に扱い、コンディション情報をクロスアテンション層を通じて統合することで、両方のアーキテクチャパラダイムの利点を生かしている。
画質調整,解像度適応,大規模画像生成に必要な重要な構成など,いくつかの最適化手法について検討する。
モデルの柔軟な設計は、特定のリソースの制約や目的に対応するシナリオをサポートする。
適切にスケールすると、Dimbaは従来の純粋なTransformersベースのベンチマークと比較してスループットとメモリフットプリントが大幅に削減される。
大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
また,実験中の評価およびリリースチェックポイント中に発見されたアーキテクチャの興味深い特性について報告する。
本研究は,拡散モデルの基礎段階における大規模ハイブリッドトランスフォーマー・マンバアーキテクチャの実現を強調し,テキスト・画像生成の明るい未来を示唆するものである。
関連論文リスト
- Adaptive Multi Scale Document Binarisation Using Vision Mamba [0.0]
本稿では,文書ビナライゼーションのためのMambaベースのアーキテクチャを提案する。
従来の信号処理技術にインスパイアされたガウス特徴(DoG)の差分を組み込むことにより、スキップ接続に新たな変更を加える。
論文 参考訳(メタデータ) (2024-10-30T08:43:18Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。