論文の概要: Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2407.18568v2
- Date: Mon, 29 Jul 2024 02:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:35:35.324348
- Title: Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation
- Title(参考訳): ドメイン一般化セマンティックセグメンテーションのためのスペクトル分解トークンの学習
- Authors: Jingjun Yi, Qi Bi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li, Yefeng Zheng,
- Abstract要約: 本稿では、フロンティアを前進させるための新しいスペクトルdEcomposed Token(SET)学習フレームワークを提案する。
特に、凍結されたVFM特徴は、まず周波数空間の位相成分と振幅成分に分解される。
提案手法は, 提案手法を用いて, 推論中におけるスタイル影響表現と静的トークンのギャップを埋める手法である。
- 参考スコア(独自算出の注目度): 38.0401463751139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid development of Vision Foundation Model (VFM) brings inherent out-domain generalization for a variety of down-stream tasks. Among them, domain generalized semantic segmentation (DGSS) holds unique challenges as the cross-domain images share common pixel-wise content information but vary greatly in terms of the style. In this paper, we present a novel Spectral-dEcomposed Token (SET) learning framework to advance the frontier. Delving into further than existing fine-tuning token & frozen backbone paradigm, the proposed SET especially focuses on the way learning style-invariant features from these learnable tokens. Particularly, the frozen VFM features are first decomposed into the phase and amplitude components in the frequency space, which mainly contain the information of content and style, respectively, and then separately processed by learnable tokens for task-specific information extraction. After the decomposition, style variation primarily impacts the token-based feature enhancement within the amplitude branch. To address this issue, we further develop an attention optimization method to bridge the gap between style-affected representation and static tokens during inference. Extensive cross-domain experiments show its state-of-the-art performance.
- Abstract(参考訳): ビジョン・ファンデーション・モデル(VFM)の急速な開発は、様々な下流タスクに固有の外部領域の一般化をもたらす。
中でもドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)は、クロスドメイン画像が共通のピクセル単位のコンテンツ情報を共有するが、スタイルの点で大きく異なるため、ユニークな課題を抱えている。
本稿では、フロンティアを前進させるための新しいスペクトル-dEcomposed Token(SET)学習フレームワークを提案する。
既存の微調整トークンやフリーズバックボーンのパラダイムを超えて、提案されたSETは特に、これらの学習可能なトークンからスタイル不変の機能を学ぶ方法に焦点を当てている。
特に、凍結されたVFM特徴は、まず、主に内容情報とスタイルの情報を含む周波数空間の位相成分と振幅成分に分解され、次いでタスク固有の情報抽出のための学習可能なトークンによって別々に処理される。
分解後、スタイルの変化は、主に振幅分岐内のトークンベースの特徴強化に影響を与える。
この問題に対処するため、我々は、推論中にスタイル影響表現と静的トークンのギャップを埋めるための注意最適化手法をさらに開発する。
広範囲にわたるクロスドメイン実験は、最先端のパフォーマンスを示している。
関連論文リスト
- Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Learning Content-enhanced Mask Transformer for Domain Generalized
Urban-Scene Segmentation [28.165600284392042]
ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。
既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。
ドメイン一般化USSSのためのCMFormer(Content-enhanced Mask TransFormer)を提案する。
論文 参考訳(メタデータ) (2023-07-01T15:48:33Z) - Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing [69.80851569594924]
FAS(Generalizable Face Anti-Spoofing)は注目されている。
この作業では、完全な表現をコンテンツとスタイルに分けます。
Shuffled Style Assembly Network (SSAN) は、異なるコンテンツやスタイルの特徴を抽出し、再組み立てするために提案されている。
論文 参考訳(メタデータ) (2022-03-10T12:44:05Z) - GaitStrip: Gait Recognition via Effective Strip-based Feature
Representations and Multi-Level Framework [34.397404430838286]
本稿では,様々なレベルの歩行情報を抽出するために,GaitStripという名前のストリップベースマルチレベル歩行認識ネットワークを提案する。
具体的には、私たちの高レベルブランチは歩行シーケンスのコンテキストを探求し、低レベルブランチは詳細な姿勢変化に焦点を当てています。
我々のGaitStripは、通常の歩行条件と複雑な歩行条件の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-03-08T09:49:48Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。