Fugu-MT 論文翻訳(概要): Scalable Autoregressive Image Generation with Mamba

論文の概要: Scalable Autoregressive Image Generation with Mamba

arxiv url: http://arxiv.org/abs/2408.12245v1
Date: Thu, 22 Aug 2024 09:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 14:33:24.960331
Title: Scalable Autoregressive Image Generation with Mamba
Title（参考訳）: Mambaによるスケーラブルな自己回帰画像生成
Authors: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li,
Abstract要約: 本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。パラメータ数は128Mから1.3Bまで様々である。
参考スコア（独自算出の注目度）: 23.027439743155192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM
Abstract（参考訳）: 本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 AiMは、線形時間複雑性を持つ長周期モデリングに特有な性能を特徴とする新しい状態空間モデルであるMambaを用いて、AR画像生成モデルによく使われるトランスフォーマーを置き換え、より優れた生成品質と推論速度の両立を図っている。多方向スキャンによる2次元信号の処理にMambaを適用する既存の手法とは異なり、AiMは自動回帰画像生成に次世代の予測パラダイムを直接利用している。このアプローチは、Mambaが2次元空間表現を学習できるようにするために、広範囲な修正が必要であることを回避している。視覚的生成タスクに対して、単純かつ戦略的に標的とした修正を実装することで、Mambaのコア構造を保存し、その効率的なロングシーケンスモデリング機能とスケーラビリティを完全に活用する。パラメータ数は128Mから1.3Bまで様々である。 ImageNet1K 256*256ベンチマークでは、私たちの最高のAiMモデルは2.21のFIDを達成し、パラメータ数に匹敵する既存のARモデルをすべて上回り、2～10倍の推論速度で拡散モデルに対して大きな競争力を示す。コードはhttps://github.com/hp-l33/AiMで入手できる。

関連論文リスト

Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation [62.00800210379539]
Masked AutoRegressive (MAR)モデルは画像生成において顕著な進歩を遂げている。 MARモデルは、伝統的に標準的なARモデルに比べて性能が劣っている。本研究は、MARアーキテクチャを改良し、画像生成品質を改善する。
論文参考訳（メタデータ） (2025-07-17T12:02:38Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。 JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文参考訳（メタデータ） (2025-03-11T17:59:46Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文参考訳（メタデータ） (2024-09-30T04:28:55Z)
Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-18T10:48:10Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。 ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文参考訳（メタデータ） (2024-08-05T16:39:39Z)
Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [41.54814517077309]
本稿では,拡張性のある代替案として,従来の注意機構を先導する新しい拡散アーキテクチャDiffusion Mamba(DiM)を提案する。 DiMは、高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持する。その結果、DIMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。
論文参考訳（メタデータ） (2024-05-24T18:50:27Z)
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。 DiMアーキテクチャは高解像度画像の推論時間効率を実現する。実験は、我々のDiMの有効性と効率を実証する。
論文参考訳（メタデータ） (2024-05-23T06:53:18Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。