論文の概要: Mamba-ST: State Space Model for Efficient Style Transfer
- arxiv url: http://arxiv.org/abs/2409.10385v1
- Date: Mon, 16 Sep 2024 15:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:00:57.290306
- Title: Mamba-ST: State Space Model for Efficient Style Transfer
- Title(参考訳): Mamba-ST:効率的なスタイル転送のための状態空間モデル
- Authors: Filippo Botti, Alex Ergasti, Leonardo Rossi, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati,
- Abstract要約: 本稿では,新しい状態空間モデル(SSM)であるMambaの設計について検討する。
そこで我々は,2つの異なる埋め込みを1つの出力に組み合わせることのできるクロスアテンション層の挙動をシミュレートするために,マンバ線形方程式を適用した。
その結果,ArtFIDとFIDの両方の指標で品質が向上した。
- 参考スコア(独自算出の注目度): 5.869642560299033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of style transfer is, given a content image and a style source, generating a new image preserving the content but with the artistic representation of the style source. Most of the state-of-the-art architectures use transformers or diffusion-based models to perform this task, despite the heavy computational burden that they require. In particular, transformers use self- and cross-attention layers which have large memory footprint, while diffusion models require high inference time. To overcome the above, this paper explores a novel design of Mamba, an emergent State-Space Model (SSM), called Mamba-ST, to perform style transfer. To do so, we adapt Mamba linear equation to simulate the behavior of cross-attention layers, which are able to combine two separate embeddings into a single output, but drastically reducing memory usage and time complexity. We modified the Mamba's inner equations so to accept inputs from, and combine, two separate data streams. To the best of our knowledge, this is the first attempt to adapt the equations of SSMs to a vision task like style transfer without requiring any other module like cross-attention or custom normalization layers. An extensive set of experiments demonstrates the superiority and efficiency of our method in performing style transfer compared to transformers and diffusion models. Results show improved quality in terms of both ArtFID and FID metrics. Code is available at https://github.com/FilippoBotti/MambaST.
- Abstract(参考訳): スタイル転送のゴールは、コンテンツ画像とスタイルソースが与えられ、コンテンツを保存する新しいイメージを生成するが、スタイルソースの芸術的表現である。
最先端のアーキテクチャのほとんどは、必要な計算負荷にもかかわらず、トランスフォーマーまたは拡散ベースのモデルを使用してこのタスクを実行する。
特に、トランスフォーマーはメモリフットプリントが大きいセルフ層とクロスアテンション層を使用し、拡散モデルは高い推論時間を必要とする。
そこで,本稿では,Mamba-STと呼ばれる,創発的状態空間モデル(SSM)であるMambaの設計について検討する。
そのため,Mamba線形方程式を適用すれば,2つの異なる埋め込みをひとつの出力に組み合わせることができるが,メモリ使用量や時間的複雑さを大幅に低減できる。
We modified the Mamba's inner equations to accept inputs and combination, two separate data stream。
我々の知る限りでは、これは、クロスアテンションやカスタム正規化レイヤのような他のモジュールを必要としない、視覚タスクのようなスタイル転送にSSMの方程式を適用する最初の試みである。
提案手法は, 変圧器や拡散モデルと比較して, スタイル伝達における優越性と効率性を示す。
その結果,ArtFIDとFIDの両方の指標で品質が向上した。
コードはhttps://github.com/FilippoBotti/MambaSTで入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - ZigMa: A DiT-style Zigzag Mamba Diffusion Model [22.68317748373856]
我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
論文 参考訳(メタデータ) (2024-03-20T17:59:14Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。