論文の概要: SISMA: Semantic Face Image Synthesis with Mamba
- arxiv url: http://arxiv.org/abs/2509.17651v1
- Date: Mon, 22 Sep 2025 11:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.358269
- Title: SISMA: Semantic Face Image Synthesis with Mamba
- Title(参考訳): SISMA:Mambaによるセマンティック顔画像合成
- Authors: Filippo Botti, Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati,
- Abstract要約: 拡散モデルは人間の顔のセマンティック画像合成(SIS)において非常に人気がある。
本稿では,最近提案されたマンバに基づくSISMAという新しいアーキテクチャを提案する。
SISMAは、計算要求の少ないセマンティックマスクを用いて、その形状を制御し、高品質なサンプルを生成する。
- 参考スコア(独自算出の注目度): 11.609232192888824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models have become very popular for Semantic Image Synthesis (SIS) of human faces. Nevertheless, their training and inference is computationally expensive and their computational requirements are high due to the quadratic complexity of attention layers. In this paper, we propose a novel architecture called SISMA, based on the recently proposed Mamba. SISMA generates high quality samples by controlling their shape using a semantic mask at a reduced computational demand. We validated our approach through comprehensive experiments with CelebAMask-HQ, revealing that our architecture not only achieves a better FID score yet also operates at three times the speed of state-of-the-art architectures. This indicates that the proposed design is a viable, lightweight substitute to transformer-based models.
- Abstract(参考訳): 拡散モデルは人間の顔のセマンティック画像合成(SIS)において非常に人気がある。
それでも、それらのトレーニングと推論は計算に高価であり、注意層が二次的に複雑になるため、その計算要求は高い。
本稿では,最近提案されたマンバに基づくSISMAという新しいアーキテクチャを提案する。
SISMAは、計算要求の少ないセマンティックマスクを用いて、その形状を制御し、高品質なサンプルを生成する。
我々は、CelebAMask-HQによる包括的な実験を通じて、我々のアーキテクチャがより良いFIDスコアを達成するだけでなく、最先端アーキテクチャの3倍の速度で運用可能であることを明らかにした。
このことから,提案手法はトランスフォーマーモデルに代えて,実用的で軽量な設計であることが示唆された。
関連論文リスト
- Dynamic Acoustic Model Architecture Optimization in Training for ASR [51.21112094223223]
DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。
CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
論文 参考訳(メタデータ) (2025-06-16T07:47:34Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。