論文の概要: DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.17637v1
- Date: Wed, 18 Mar 2026 11:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.679565
- Title: DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
- Title(参考訳): DSS-GAN: コンディショナル画像合成のためのマンババックボーン付き方向空間GAN
- Authors: Aleksander Ogonowski, Konrad Klimaszewski, Przemysław Rokita,
- Abstract要約: DSS-GANは,Mambaを階層型ジェネレータのバックボーンとして使用し,ノイズ・ツー・イメージ合成に利用した最初の生成逆ネットワークである。
中心的な貢献はDLR(Directional Latent)であり、これは遅延ベクトルを方向特異的なサブベクターに分解する新しい条件付け機構である。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.
- Abstract(参考訳): DSS-GANは,Mambaを階層型ジェネレータのバックボーンとして使用し,ノイズ・ツー・イメージ合成に利用した最初の生成逆ネットワークである。
中心的なコントリビューションは、DLR(Directional Latent Routing)である。これは、遅延ベクトルを方向特異的なサブベクターに分解する新しい条件付け機構で、それぞれがクラスを埋め込み、対応するマンバスキャンの特徴的アフィン変調を生成する。
グローバルシグナルを注入する従来のクラス条件付けとは異なり、DLRは特徴写像の異なる空間軸に沿ってクラスアイデンティティと潜在構造を結合し、全ての生成スケールで一貫して適用する。
DSS-GANは、複数のテストデータセットにわたるStyleGAN2-ADAと比較して、改善されたFID、KID、精度の高いリコールスコアを実現する。
遅延空間の解析により、方向のサブベクターは測定可能な特殊化を示すことが明らかとなった。
関連論文リスト
- One CT Unified Model Training Framework to Rule All Scanning Protocols [32.68329101435685]
NICT(Non-ideal Measurement Computed Tomography)はCTの臨床的使用を拡大している。
ほとんどの方法はペアデータを必要とするが、これは避けられない臓器の動きによる非現実的な要求である。
サブマニフォールド間のギャップを埋めるために,不確実誘導マニフォールド平滑化(UMS)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:26:32Z) - SKANet: A Cognitive Dual-Stream Framework with Adaptive Modality Fusion for Robust Compound GNSS Interference Classification [47.20483076887704]
グローバルナビゲーション衛星システム(GNSS)は、洗練された妨害による脅威の増大に直面している。
時間周波数画像(TFI)とパワースペクトル密度(PSD)を統合した2重ストリームアーキテクチャに基づく認知的ディープラーニングフレームワークを提案する。
SKANetは96.99%の精度を達成し、複合妨害分類において優れたロバスト性を示した。
論文 参考訳(メタデータ) (2026-01-19T07:42:45Z) - Pyramidal Adaptive Cross-Gating for Multimodal Detection [0.0]
PACGNetは、バックボーン内で深い融合を実行するように設計されたアーキテクチャである。
Pモジュールは、プログレッシブ階層的ゲーティング機構を通じて特徴階層を再構築する。
私たちのPACGNetは、mAP50スコアがそれぞれ81.7%と82.1%という、最先端のベンチマークを新たに設定しています。
論文 参考訳(メタデータ) (2025-12-20T09:32:18Z) - Bidirectional Representations Augmented Autoregressive Biological Sequence Generation:Application in De Novo Peptide Sequencing [51.12821379640881]
自己回帰(AR)モデルは、全体的な双方向表現を提供するが、生成的コヒーレンスとスケーラビリティに関する課題に直面している。
非自己回帰機構からリッチなコンテキスト情報を動的に統合することにより、AR生成を向上するハイブリッドフレームワークを提案する。
新しいクロスデコーダアテンションモジュールにより、ARデコーダは、これらの双方向機能を反復的にクエリし、統合することができる。
論文 参考訳(メタデータ) (2025-10-09T12:52:55Z) - SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes [13.103199041728303]
目標音抽出(TSE)の最近の進歩 : 到着方向から導出した方向手がかり(DoA)を用いて
本稿では,SPIN(Spectral Pairwise Interaction)モジュールを中心とした効果的な指向性情報統合フレームワークSoundを提案する。
SPINは複雑なスペクトログラム領域におけるチャネル間空間相関を捕捉し、マルチチャネル信号で全空間情報を保存する。
論文 参考訳(メタデータ) (2025-09-23T02:36:39Z) - Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0]
畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文 参考訳(メタデータ) (2025-01-22T14:19:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。