論文の概要: Stylistic-STORM (ST-STORM) : Perceiving the Semantic Nature of Appearance
- arxiv url: http://arxiv.org/abs/2604.16086v1
- Date: Fri, 17 Apr 2026 14:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.949347
- Title: Stylistic-STORM (ST-STORM) : Perceiving the Semantic Nature of Appearance
- Title(参考訳): Stylistic-STORM (ST-STORM) : 出現のセマンティックな性質の知覚
- Authors: Hamed Ouattara, Pierre Duthon, Pascal Houssam Salmane, Frédéric Bernardin, Omar Ait Aider,
- Abstract要約: 本稿では,コンテンツから切り離されたセマンティックモダリティとして外観を扱うハイブリッドSSLフレームワークST-STORMを紹介する。
対象分類,微粒な気象特性,メラノーマ検出など,様々なタスクにおけるST-STORMの評価を行った。
- 参考スコア(独自算出の注目度): 2.7837697086152122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the dominant paradigms in self-supervised learning (SSL), illustrated by MoCo or DINO, aims to produce robust representations by capturing features that are insensitive to certain image transformations such as illumination, or geometric changes. This strategy is appropriate when the objective is to recognize objects independently of their appearance. However, it becomes counterproductive as soon as appearance itself constitutes the discriminative signal. In weather analysis, for example, rain streaks, snow granularity, atmospheric scattering, as well as reflections and halos, are not noise: they carry the essential information. In critical applications such as autonomous driving, ignoring these cues is risky, since grip and visibility depend directly on ground conditions and atmospheric conditions. We introduce ST-STORM, a hybrid SSL framework that treats appearance (style) as a semantic modality to be disentangled from content. Our architecture explicitly separates two latent streams, regulated by gating mechanisms. The Content branch aims at a stable semantic representation through a JEPA scheme coupled with a contrastive objective, promoting invariance to appearance variations. In parallel, the Style branch is constrained to capture appearance signatures (textures, contrasts, scattering) through feature prediction and reconstruction under an adversarial constraint. We evaluate ST-STORM on several tasks, including object classification (ImageNet-1K), fine-grained weather characterization, and melanoma detection (ISIC 2024 Challenge). The results show that the Style branch effectively isolates complex appearance phenomena (F1=97% on Multi-Weather and F1=94% on ISIC 2024 with 10% labeled data), without degrading the semantic performance (F1=80% on ImageNet-1K) of the Content branch, and improves the preservation of critical appearance
- Abstract(参考訳): MoCoやDINOによって説明された自己教師あり学習(SSL)の主要なパラダイムの1つは、照明や幾何学的変化のような特定の画像変換に敏感な特徴を捉えて、堅牢な表現を作ることである。
この戦略は、目的がオブジェクトの外観から独立して認識することである場合に適切である。
しかし、外見自体が識別シグナルを構成するとすぐに非生産的になる。
気象分析では、例えば、雨の流れ、雪の粒度、大気の散乱、反射やハロはノイズではなく、基本的な情報を持っている。
自律運転のような重要な応用では、グリップと可視性は地上の状態や大気条件に直接依存するため、これらの手がかりを無視することは危険である。
コンテンツから切り離すためのセマンティックなモダリティとして外観(スタイル)を扱うハイブリッドSSLフレームワークST-STORMを紹介する。
我々のアーキテクチャは、ゲーティング機構によって制御される2つの潜在ストリームを明示的に分離する。
Contentブランチは、JEPAスキームを通じて安定したセマンティック表現を目標としており、対照的な目的と組み合わせ、外観のバリエーションへの不変性を推進している。
並行して、Styleブランチは、外見のシグネチャ(テクスチャ、コントラスト、散乱)を、敵対的制約の下で特徴予測と再構成によってキャプチャする。
対象分類 (ImageNet-1K) や微粒な気象特性, メラノーマ検出 (ISIC 2024 Challenge) などのタスクでST-STORMを評価する。
その結果、Styleブランチは、コンテンツブランチのセマンティックパフォーマンス(ImageNet-1KではF1=80%)を低下させることなく、複雑な外観現象(マルチウェザーではF1=97%、ラベル付きデータではISIC 2024ではF1=94%)を効果的に分離し、クリティカルな外観の保存を改善することが示された。
関連論文リスト
- Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification [54.952203312050564]
敵対的攻撃は、リモートセンシング(RS)画像分類におけるディープラーニングモデルの信頼性に深刻な脅威をもたらす。
本稿ではフォグフール(FogFool)を提案する。
2つのベンチマークRSデータセットの実験は、FogFoolが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-04-16T05:47:57Z) - DVI: Disentangling Semantic and Visual Identity for Training-Free Personalized Generation [10.474377498273205]
近年のアイデンティティのカスタマイズ手法は、照明、肌のテクスチャ、環境音といった視覚的コンテキストを無視することが多い。
DVI(Disentangled Visual-Identity)*は、アイデンティティを細粒度セマンティクスと粗粒度ビジュアルストリームに分解するフレームワークである。
実験により、DVIはパラメータの微調整なしに視覚的一貫性と大気の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T02:25:05Z) - DeshadowMamba: Deshadowing as 1D Sequential Similarity [85.07259906446588]
指向性状態遷移を通じてグローバルなコンテキストを伝播する選択状態空間モデルであるMambaを紹介する。
その可能性にもかかわらず、マンバを画像データに直接適用することは、シャドー・ノン・シャドウ・セマンティクスの認識が欠けているため、最適ではない。
我々は,マンバの入力ゲートにシャドウ・アウェアの類似性を注入する方向変調機構であるCrossGateを提案する。
外観の忠実度をさらに高めるために,グローバルな色統計によって駆動される対照的な学習目標であるColorShift正則化を導入する。
論文 参考訳(メタデータ) (2025-10-28T10:14:23Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - DISC-GAN: Disentangling Style and Content for Cluster-Specific Synthetic Underwater Image Generation [4.045232231131666]
本研究では, 水中画像合成のためのクラスタ固有のトレーニング戦略とスタイル・コンテント・アンタングルを統合した新しいフレームワーク, Disentangled Style-Content GAN (DISC-GAN) を提案する。
提案手法は,写真構造類似度指数(SSIM)0.9012,平均ピーク信号雑音比(PSNR)32.5118dB,Frechet Inception Distance(FID)13.3728である。
論文 参考訳(メタデータ) (2025-10-12T19:56:20Z) - RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions [58.37558408672509]
本稿では,ロバストな自己監督型環境対応学習と悪天候蒸留という2つの重要なステップからなる,堅牢な自己監督型訓練パラダイムを提案する。
提案手法の有効性と汎用性を実証し,既存の最先端の自己管理手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-23T15:41:40Z) - Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation [11.170848285659572]
量子化埋め込みを用いたセグメンテーションマスクのオートエンコーダ精度は連続数値埋め込みよりも8%低い。
セマンティックセグメンテーションのための連続評価組込みフレームワークを提案する。
提案手法では,細粒度のセマンティックな詳細を保存しながら,離散的な潜在表現の必要性を排除している。
論文 参考訳(メタデータ) (2025-03-19T18:06:54Z) - Learning to Manipulate Individual Objects in an Image [71.55005356240761]
本稿では,独立性および局所性を有する潜在因子を用いた生成モデルを学習する手法について述べる。
これは、潜伏変数の摂動が、オブジェクトに対応する合成画像の局所領域のみに影響を与えることを意味する。
他の教師なし生成モデルとは異なり、オブジェクトレベルのアノテーションを必要とせず、オブジェクト中心の操作を可能にする。
論文 参考訳(メタデータ) (2020-04-11T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。