論文の概要: Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.16567v1
- Date: Thu, 18 Dec 2025 14:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.091986
- Title: Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation
- Title(参考訳): Causal-Tune:ドメイン一般化セマンティックセマンティックセグメンテーションのためのビジョン基礎モデルからの因果因子のマイニング
- Authors: Yin Zhang, Yongqiang Zhang, Yaoyue Zheng, Bogdan Raducanu, Dan Liu,
- Abstract要約: 少数のパラメータを持つ微調整型ビジョンファウンデーションモデル(VFM)は、ドメイン一般化セマンティック(DGSS)において顕著な性能を示した。
VFMの特徴から因果的要因を抽出し,非因果的要因を抑えるための新しい微調整戦略であるCausal-Tuneを提案する。
本手法は, 悪天候条件下での優れた性能を実現し, 積雪条件下でのベースラインよりも+4.8% mIoUを向上する。
- 参考スコア(独自算出の注目度): 11.151384130523942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning Vision Foundation Models (VFMs) with a small number of parameters has shown remarkable performance in Domain Generalized Semantic Segmentation (DGSS). Most existing works either train lightweight adapters or refine intermediate features to achieve better generalization on unseen domains. However, they both overlook the fact that long-term pre-trained VFMs often exhibit artifacts, which hinder the utilization of valuable representations and ultimately degrade DGSS performance. Inspired by causal mechanisms, we observe that these artifacts are associated with non-causal factors, which usually reside in the low- and high-frequency components of the VFM spectrum. In this paper, we explicitly examine the causal and non-causal factors of features within VFMs for DGSS, and propose a simple yet effective method to identify and disentangle them, enabling more robust domain generalization. Specifically, we propose Causal-Tune, a novel fine-tuning strategy designed to extract causal factors and suppress non-causal ones from the features of VFMs. First, we extract the frequency spectrum of features from each layer using the Discrete Cosine Transform (DCT). A Gaussian band-pass filter is then applied to separate the spectrum into causal and non-causal components. To further refine the causal components, we introduce a set of causal-aware learnable tokens that operate in the frequency domain, while the non-causal components are discarded. Finally, refined features are transformed back into the spatial domain via inverse DCT and passed to the next layer. Extensive experiments conducted on various cross-domain tasks demonstrate the effectiveness of Causal-Tune. In particular, our method achieves superior performance under adverse weather conditions, improving +4.8% mIoU over the baseline in snow conditions.
- Abstract(参考訳): 少数のパラメータを持つ微調整型ビジョンファウンデーションモデル(VFM)は、ドメイン一般化セマンティックセマンティックセマンティックセグメンテーション(DGSS)において顕著な性能を示した。
既存の作業の多くは、ライトウェイトアダプタを訓練するか、未確認領域のより優れた一般化を実現するために中間機能を洗練させるかのどちらかである。
しかし、両者は、長期の事前訓練されたVFMがしばしばアーティファクトを示すという事実を軽視し、価値ある表現の利用を妨げ、最終的にDGSSの性能を低下させた。
因果メカニズムにインスパイアされたこれらのアーティファクトは、通常、VFMスペクトルの低周波成分と高周波成分に存在する非因果因子と関連していることが観察された。
本稿では,DGSS における VFM の特徴の因果的・非因果的要因を明示的に検討し,より堅牢な領域一般化を実現するため,それらを同定・解離するための簡易かつ効果的な手法を提案する。
具体的には、因果要因を抽出し、VFMの特徴から非因果要因を抑えるために設計された、新しい微調整戦略であるCausal-Tuneを提案する。
まず、離散コサイン変換(DCT)を用いて各層から特徴の周波数スペクトルを抽出する。
次にガウス帯域通過フィルタを適用し、スペクトルを因果成分と非因果成分に分離する。
因果成分をさらに洗練するために、周波数領域で動作する因果認識可能なトークンのセットを導入し、非因果成分を破棄する。
最後に、洗練された特徴は、逆DCTを介して空間領域に変換され、次の層に渡される。
様々なクロスドメインなタスクで実施された大規模な実験は、コーサル・トゥーンの有効性を実証している。
特に, 降雪条件下では, 4.8% mIoU をベースラインに改良し, 悪天候条件下での優れた性能を実現している。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Generalizable Multispectral Land Cover Classification via Frequency-Aware Mixture of Low-Rank Token Experts [22.75047167955269]
マルチスペクトル土地被覆分類(MLCC)の新しいアプローチであるLand-MoEを紹介する。
Land-MoEは、低ランクトークンエキスパート(MoLTE)と周波数認識フィルタ(FAF)の2つの重要なモジュールから構成される。
論文 参考訳(メタデータ) (2025-05-20T08:52:28Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation in Surgical and Deep-Sea Exploration Robots [34.28684917337352]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Integrating Frequency Guidance into Multi-source Domain Generalization for Bearing Fault Diagnosis [24.85752780864944]
本稿では,FARNetというFourierベースのAugmentation Restruction Networkを提案する。
本発明のネットワークは、振幅スペクトルサブネットワークと位相スペクトルサブネットワークとから構成され、ソースドメインとターゲットドメインとの相違を順次低減する。
モデル出力の決定境界を従来の三重項損失と比較して洗練するために,一般化に寄与する多様体三重項損失を提案する。
論文 参考訳(メタデータ) (2025-02-01T20:23:03Z) - Multi-view Adversarial Discriminator: Mine the Non-causal Factors for
Object Detection in Unseen Domains [36.4342793435982]
本稿では、ソースドメイン上での多視点対角訓練により、共通特徴から非因果因子を除去するアイデアを提案する。
マルチビュー逆微分器(MAD)に基づく領域一般化モデルを提案する。
我々のMADは6つのベンチマークで最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-04-06T09:20:28Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。