論文の概要: SISMA: Semantic Face Image Synthesis with Mamba
- arxiv url: http://arxiv.org/abs/2509.17651v1
- Date: Mon, 22 Sep 2025 11:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.358269
- Title: SISMA: Semantic Face Image Synthesis with Mamba
- Title(参考訳): SISMA:Mambaによるセマンティック顔画像合成
- Authors: Filippo Botti, Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati,
- Abstract要約: 拡散モデルは人間の顔のセマンティック画像合成(SIS)において非常に人気がある。
本稿では,最近提案されたマンバに基づくSISMAという新しいアーキテクチャを提案する。
SISMAは、計算要求の少ないセマンティックマスクを用いて、その形状を制御し、高品質なサンプルを生成する。
- 参考スコア(独自算出の注目度): 11.609232192888824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models have become very popular for Semantic Image Synthesis (SIS) of human faces. Nevertheless, their training and inference is computationally expensive and their computational requirements are high due to the quadratic complexity of attention layers. In this paper, we propose a novel architecture called SISMA, based on the recently proposed Mamba. SISMA generates high quality samples by controlling their shape using a semantic mask at a reduced computational demand. We validated our approach through comprehensive experiments with CelebAMask-HQ, revealing that our architecture not only achieves a better FID score yet also operates at three times the speed of state-of-the-art architectures. This indicates that the proposed design is a viable, lightweight substitute to transformer-based models.
- Abstract(参考訳): 拡散モデルは人間の顔のセマンティック画像合成(SIS)において非常に人気がある。
それでも、それらのトレーニングと推論は計算に高価であり、注意層が二次的に複雑になるため、その計算要求は高い。
本稿では,最近提案されたマンバに基づくSISMAという新しいアーキテクチャを提案する。
SISMAは、計算要求の少ないセマンティックマスクを用いて、その形状を制御し、高品質なサンプルを生成する。
我々は、CelebAMask-HQによる包括的な実験を通じて、我々のアーキテクチャがより良いFIDスコアを達成するだけでなく、最先端アーキテクチャの3倍の速度で運用可能であることを明らかにした。
このことから,提案手法はトランスフォーマーモデルに代えて,実用的で軽量な設計であることが示唆された。
関連論文リスト
- HyM-UNet: Synergizing Local Texture and Global Context via Hybrid CNN-Mamba Architecture for Medical Image Segmentation [3.976000861085382]
HyM-UNet は,CNN の局所的特徴抽出能力を,Mamba の効率的なグローバルモデリング能力と相乗化するために設計された。
エンコーダとデコーダのセマンティックギャップを埋めるため,Mamba-Guided Fusion Skip Connectionを提案する。
その結果,HyM-UNetはDice係数とIoUで既存の最先端手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-11-22T09:02:06Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Dynamic Acoustic Model Architecture Optimization in Training for ASR [51.21112094223223]
DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。
CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
論文 参考訳(メタデータ) (2025-06-16T07:47:34Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - An Adversarial Active Sampling-based Data Augmentation Framework for
Manufacturable Chip Design [55.62660894625669]
リソグラフィーモデリングは、チップ設計マスクが製造可能であることを保証するため、チップ設計において重要な問題である。
機械学習の最近の進歩は、時間を要するリソグラフィーシミュレーションをディープニューラルネットワークに置き換えるための代替ソリューションを提供している。
本稿では,限られたデータのジレンマを解消し,機械学習モデルの性能を向上させるために,データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-27T20:53:39Z) - Calibrated Hyperspectral Image Reconstruction via Graph-based
Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。
既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。
このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。
マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T09:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。