論文の概要: MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models
- arxiv url: http://arxiv.org/abs/2505.15822v1
- Date: Tue, 06 May 2025 20:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-25 10:52:49.075797
- Title: MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models
- Title(参考訳): MambaStyle: 状態空間モデルによるリアルタイム画像編集のための効率的なスタイルGANインバージョン
- Authors: Jhon Lopez, Carlos Hinojosa, Henry Arguello, Bernard Ghanem,
- Abstract要約: MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。
MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
- 参考スコア(独自算出の注目度): 60.110274007388135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of inverting real images into StyleGAN's latent space to manipulate their attributes has been extensively studied. However, existing GAN inversion methods struggle to balance high reconstruction quality, effective editability, and computational efficiency. In this paper, we introduce MambaStyle, an efficient single-stage encoder-based approach for GAN inversion and editing that leverages vision state-space models (VSSMs) to address these challenges. Specifically, our approach integrates VSSMs within the proposed architecture, enabling high-quality image inversion and flexible editing with significantly fewer parameters and reduced computational complexity compared to state-of-the-art methods. Extensive experiments show that MambaStyle achieves a superior balance among inversion accuracy, editing quality, and computational efficiency. Notably, our method achieves superior inversion and editing results with reduced model complexity and faster inference, making it suitable for real-time applications.
- Abstract(参考訳): 実際の画像をStyleGANの潜在空間に逆転してそれらの特性を操作するタスクは、広く研究されている。
しかし、既存のGANインバージョン手法は、高い再構成品質、効率的な編集性、計算効率のバランスをとるのに苦労している。
本稿では、視覚状態空間モデル(VSSM)を活用してこれらの課題に対処する、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチであるMambaStyleを紹介する。
具体的には,提案アーキテクチャにVSSMを組み込んで,高画質な画像インバージョンとフレキシブルな編集を可能にする。
大規模な実験により、MambaStyleはインバージョン精度、編集品質、計算効率のバランスが優れていることが示された。
特に,本手法はモデル複雑性を低減し,より高速な推論が可能であり,リアルタイムアプリケーションに適している。
関連論文リスト
- SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer [41.09041735653436]
私たちはSaMamと呼ばれるMambaベースのスタイル転送フレームワークを開発した。
具体的には、コンテンツやスタイル情報を効率的に抽出するマンバエンコーダを設計する。
既存のSSMの局所的画素分割やチャネル冗長性,空間的不連続性といった問題に対処するために,局所的拡張とジグザグスキャンを導入する。
論文 参考訳(メタデータ) (2025-03-20T08:18:27Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。
実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。
本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T04:38:42Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。