論文の概要: DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation
- arxiv url: http://arxiv.org/abs/2411.04168v1
- Date: Wed, 06 Nov 2024 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.099308
- Title: DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation
- Title(参考訳): DiMSUM: Diffusion Mamba -- 画像生成のためのスケーラブルで統一された空間周波数法
- Authors: Hao Phung, Quan Dao, Trung Dao, Hoang Phan, Dimitris Metaxas, Anh Tran,
- Abstract要約: 拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
- 参考スコア(独自算出の注目度): 4.391439322050918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel state-space architecture for diffusion models, effectively harnessing spatial and frequency information to enhance the inductive bias towards local features in input images for image generation tasks. While state-space networks, including Mamba, a revolutionary advancement in recurrent neural networks, typically scan input sequences from left to right, they face difficulties in designing effective scanning strategies, especially in the processing of image data. Our method demonstrates that integrating wavelet transformation into Mamba enhances the local structure awareness of visual inputs and better captures long-range relations of frequencies by disentangling them into wavelet subbands, representing both low- and high-frequency components. These wavelet-based outputs are then processed and seamlessly fused with the original Mamba outputs through a cross-attention fusion layer, combining both spatial and frequency information to optimize the order awareness of state-space models which is essential for the details and overall quality of image generation. Besides, we introduce a globally-shared transformer to supercharge the performance of Mamba, harnessing its exceptional power to capture global relationships. Through extensive experiments on standard benchmarks, our method demonstrates superior results compared to DiT and DIFFUSSM, achieving faster training convergence and delivering high-quality outputs. The codes and pretrained models are released at https://github.com/VinAIResearch/DiMSUM.git.
- Abstract(参考訳): 本稿では,空間情報と周波数情報を効果的に活用し,画像生成タスクにおける入力画像の局所的特徴に対する帰納バイアスを高める,拡散モデルのための新しい状態空間アーキテクチャを提案する。
再帰型ニューラルネットワークの革命的な進歩であるMambaを含む状態空間ネットワークは、通常、左から右への入力シーケンスをスキャンするが、特に画像データの処理において、効果的なスキャン戦略を設計する上で困難に直面している。
本手法は, ウェーブレット変換をマンバに組み込むことで, 視覚入力の局所的構造認識を高め, ウェーブレットサブバンドに切り離すことにより, 周波数の長距離関係をよりよく把握できることを実証する。
これらのウェーブレットベースの出力は、大陸間融合層を介して元のマンバ出力とシームレスに処理され、空間情報と周波数情報を組み合わせて、画像生成の詳細と全体的な品質に不可欠な状態空間モデルの順序認識を最適化する。
さらに,マンバの性能をスーパーチャージするグローバルシェードトランスフォーマーを導入し,その異常なパワーを利用してグローバルな関係を捉える。
提案手法は, 標準ベンチマーク実験により, DiT や DIFFUSSM よりも優れた結果を示し, より高速なトレーニング収束を実現し, 高品質な出力を実現する。
コードと事前訓練されたモデルはhttps://github.com/VinAIResearch/DiMSUM.gitで公開されている。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model [8.392891463947661]
本研究では、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバを提案する。
Wavelet-SSMモジュールは、ウェーブレットベースの周波数領域の特徴抽出とSSMによるグローバル情報抽出を組み込む。
提案手法は,現在の最先端手法と比較して,視覚的に魅力的な結果と優れた性能を両立させる。
論文 参考訳(メタデータ) (2025-03-24T06:25:44Z) - Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion [28.543822934210404]
マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
本稿では,固定シーケンススキャンに伴うバイアスを取り除くために,ランダムシャッフルと呼ばれるバイーシアンに着想を得た新しいスキャン手法を提案する。
我々は,モンテカルロ平均化に基づくテスト手法を開発し,モデルの出力が期待される結果とより密に一致することを保証する。
論文 参考訳(メタデータ) (2024-09-03T09:12:18Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - MxT: Mamba x Transformer for Image Inpainting [11.447968918063335]
Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
論文 参考訳(メタデータ) (2024-07-23T02:21:11Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - FreqMamba: Viewing Mamba from a Frequency Perspective for Image Deraining [1.6793052475826054]
雨害による画像の劣化は、知覚に欠かせない周波数情報を失うことが多く、画像の劣化はこの問題を解決することを目的としている。
近年の研究では、マンバのグローバルおよびローカル情報知覚の有効性と効率性が確認されている。
本稿では,マンバと周波数解析の相補性を利用して画像デライニングを行う,効率的かつ効率的なパラダイムであるFreqMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:02:31Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。