Fugu-MT 論文翻訳(概要): DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

論文の概要: DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

arxiv url: http://arxiv.org/abs/2405.14224v1
Date: Thu, 23 May 2024 06:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 18:34:03.189468
Title: DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis
Title（参考訳）: DiM:高分解能画像合成のための拡散マンバ
Authors: Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu,
Abstract要約: Diffusion Mamba (DiM) は状態空間モデルに基づくシーケンスモデルである DiMアーキテクチャは高解像度画像の推論時間効率を実現する。実験は、我々のDiMの有効性と効率を実証する。
参考スコア（独自算出の注目度）: 56.849285913695184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have achieved great success in image generation, with the backbone evolving from U-Net to Vision Transformers. However, the computational cost of Transformers is quadratic to the number of tokens, leading to significant challenges when dealing with high-resolution images. In this work, we propose Diffusion Mamba (DiM), which combines the efficiency of Mamba, a sequence model based on State Space Models (SSM), with the expressive power of diffusion models for efficient high-resolution image synthesis. To address the challenge that Mamba cannot generalize to 2D signals, we make several architecture designs including multi-directional scans, learnable padding tokens at the end of each row and column, and lightweight local feature enhancement. Our DiM architecture achieves inference-time efficiency for high-resolution images. In addition, to further improve training efficiency for high-resolution image generation with DiM, we investigate ``weak-to-strong'' training strategy that pretrains DiM on low-resolution images ($256\times 256$) and then finetune it on high-resolution images ($512 \times 512$). We further explore training-free upsampling strategies to enable the model to generate higher-resolution images (e.g., $1024\times 1024$ and $1536\times 1536$) without further fine-tuning. Experiments demonstrate the effectiveness and efficiency of our DiM.
Abstract（参考訳）: 拡散モデルは画像生成において大きな成功を収め、バックボーンはU-NetからVision Transformersへと進化した。しかし、Transformersの計算コストはトークンの数に2倍であり、高解像度画像を扱う際の大きな課題となっている。本研究では,状態空間モデル(SSM)に基づくシーケンスモデルであるMambaの効率と,高分解能画像合成のための拡散モデルの表現力を組み合わせた拡散マンバ(Diffusion Mamba, DiM)を提案する。 Mambaが2次元信号に一般化できないという課題に対処するため、多方向スキャン、各行と列の端にある学習可能なパディングトークン、軽量な局所的特徴拡張など、いくつかのアーキテクチャ設計を行った。我々のDEMアーキテクチャは高解像度画像の推測時間効率を実現する。さらに、高解像度画像生成のためのトレーニング効率をさらに向上するため、低解像度画像(256\times 256$)でDiMを事前訓練し、高解像度画像(512 \times 512$)で微調整する「弱強」のトレーニング戦略を検討する。さらに、トレーニング不要のアップサンプリング戦略を検討し、さらに微調整することなく、高解像度の画像(例えば、1024ドル、1536ドル、1536ドル)を生成できるようにします。実験は、我々のDiMの有効性と効率を実証する。

関連論文リスト

Diffusion Transformer-to-Mamba Distillation for High-Resolution Image Generation [65.46359545280546]
本稿では,効率的なトレーニングパイプラインを形成するための拡散変圧器-タンバ蒸留(T2MD)について紹介する。我々は,効率とグローバルな依存関係を同時に達成する拡散自己注意とマンバハイブリッドモデルを確立する。実験により、トレーニングパスはオーバーヘッドが低く、高品質のテキスト・ツー・イメージ生成につながることが示された。
論文参考訳（メタデータ） (2025-06-23T18:01:19Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。パラメータ数は128Mから1.3Bまで様々である。
論文参考訳（メタデータ） (2024-08-22T09:27:49Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [41.54814517077309]
本稿では,拡張性のある代替案として,従来の注意機構を先導する新しい拡散アーキテクチャDiffusion Mamba(DiM)を提案する。 DiMは、高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持する。その結果、DIMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。
論文参考訳（メタデータ） (2024-05-24T18:50:27Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文参考訳（メタデータ） (2023-10-23T17:20:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。