論文の概要: StyMam: A Mamba-Based Generator for Artistic Style Transfer
- arxiv url: http://arxiv.org/abs/2601.12954v1
- Date: Mon, 19 Jan 2026 11:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.874936
- Title: StyMam: A Mamba-Based Generator for Artistic Style Transfer
- Title(参考訳): StyMam: マンバをベースとしたアートスタイルのトランスファー用発電機
- Authors: Zhou Hong, Rongsheng Hu, Yicheng Di, Xiaolong Xu, Ning Dong, Yihua Shao, Run Ling, Yun Wang, Juqin Wang, Zhanjie Zhang, Ao Ma,
- Abstract要約: 人工物や不調和なパターンを導入することなく高品質なスタイリング画像を生成するためのマンバベースのジェネレータを提案する。
具体的には,余剰デュアルパスストリップ走査機構とチャネル重み付き空間アテンションモジュールを備えたマンバ型ジェネレータを提案する。
提案手法は、最先端のアルゴリズムを品質と速度の両方で上回る。
- 参考スコア(独自算出の注目度): 16.81948748572056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image style transfer aims to integrate the visual patterns of a specific artistic style into a content image while preserving its content structure. Existing methods mainly rely on the generative adversarial network (GAN) or stable diffusion (SD). GAN-based approaches using CNNs or Transformers struggle to jointly capture local and global dependencies, leading to artifacts and disharmonious patterns. SD-based methods reduce such issues but often fail to preserve content structures and suffer from slow inference. To address these issues, we revisit GAN and propose a mamba-based generator, termed as StyMam, to produce high-quality stylized images without introducing artifacts and disharmonious patterns. Specifically, we introduce a mamba-based generator with a residual dual-path strip scanning mechanism and a channel-reweighted spatial attention module. The former efficiently captures local texture features, while the latter models global dependencies. Finally, extensive qualitative and quantitative experiments demonstrate that the proposed method outperforms state-of-the-art algorithms in both quality and speed.
- Abstract(参考訳): イメージスタイル転送は、特定の芸術的スタイルの視覚的パターンを、コンテンツ構造を保持しながらコンテンツイメージに統合することを目的としている。
既存の手法は主にGAN(Generative Adversarial Network)やSD(Stable diffusion)に依存している。
CNNやTransformerを使ったGANベースのアプローチは、ローカルとグローバルの依存関係を共同でキャプチャするのに苦労し、アーティファクトや不調和なパターンにつながります。
SDベースの手法はそのような問題を緩和するが、しばしばコンテンツ構造を保存できず、推論が遅くなる。
これらの問題に対処するため,我々はGANを再検討し,StyMamと呼ばれるマンバベースのジェネレータを提案し,アーティファクトや不調和なパターンを導入することなく高品質なスタイリング画像を生成する。
具体的には,余剰デュアルパスストリップ走査機構とチャネル重み付き空間アテンションモジュールを備えたマンバ型ジェネレータを提案する。
前者はローカルテクスチャ機能を効率的にキャプチャし、後者はグローバルな依存関係をモデル化する。
最後に,定性的かつ定量的な実験により,提案手法は品質と速度の両面で最先端のアルゴリズムより優れていることを示した。
関連論文リスト
- High-Fidelity Image Inpainting with Multimodal Guided GAN Inversion [15.202130790708747]
本稿では,画像インペイントのための新しいGANインバージョン手法MMInvertFillを提案する。
MMInvertFillは、主に事前変調のマルチモーダル誘導エンコーダと、F&W+遅延空間のGANジェネレータを含む。
MMInvertFillは他の最先端技術よりも質的に定量的に優れていることを示す。
論文 参考訳(メタデータ) (2025-04-17T10:58:45Z) - SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer [41.09041735653436]
私たちはSaMamと呼ばれるMambaベースのスタイル転送フレームワークを開発した。
具体的には、コンテンツやスタイル情報を効率的に抽出するマンバエンコーダを設計する。
既存のSSMの局所的画素分割やチャネル冗長性,空間的不連続性といった問題に対処するために,局所的拡張とジグザグスキャンを導入する。
論文 参考訳(メタデータ) (2025-03-20T08:18:27Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [29.426558840522734]
我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Self-Distilled StyleGAN: Towards Generation from Internet Photos [47.28014076401117]
本稿では,インターネットから収集した未処理画像に対して,StyleGANをどのように適応させるかを示す。
本稿では,2つの主成分からなるスタイルGANを用いた自己蒸留法を提案する。
提案手法は,データの多様性の損失を最小限に抑えつつ,高品質な画像の生成を可能にする。
論文 参考訳(メタデータ) (2022-02-24T17:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。