Fugu-MT 論文翻訳(概要): Selective, Regularized, and Calibrated: Harnessing Vision Foundation Models for Cross-Domain Few-Shot Semantic Segmentation

論文の概要: Selective, Regularized, and Calibrated: Harnessing Vision Foundation Models for Cross-Domain Few-Shot Semantic Segmentation

arxiv url: http://arxiv.org/abs/2605.19340v1
Date: Tue, 19 May 2026 04:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.117549
Title: Selective, Regularized, and Calibrated: Harnessing Vision Foundation Models for Cross-Domain Few-Shot Semantic Segmentation
Title（参考訳）: 選択的, 正規化, 校正的: クロスドメインなFew-Shotセマンティックセマンティックセマンティックセグメンテーションのためのハーネスングビジョン基礎モデル
Authors: Junyuan Ma, Xunzhi Xiang, Wenbin Li, Qi Fan, Yang Gao,
Abstract要約: 本稿では,3段階のセレクトレギュラライズ・キャリブレートVFMに基づくセグメンテーションフレームワークを提案する。 HERAは限られたラベルから効果的に学習し、ソースデータの再トレーニングなしで新しいドメインに適応する。実験の結果、HERAは複数のCD-FSSベンチマークで4.1 mIoU以上を越えている。
参考スコア（独自算出の注目度）: 15.928088842408565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision foundation models (VFMs) have achieved strong performance across various vision tasks. However, it still remains challenging to apply VFMs for cross-domain few-shot segmentation (CD-FSS), which segments objects of novel classes under domain shifts using only a few labeled exemplars. The challenge is mainly driven by two factors: (1) limited labeled exemplars per novel class relative to the scale of VFM pre-training, making the model prone to overfitting during retraining, and (2) target-domain shifts underrepresented during pre-training, inducing cross-domain inconsistency and layer-wise sensitivity. To address these issues, we propose Hierarchical Exemplar Representation Adaptation (HERA), a three-stage select-regularize-calibrate VFM-based segmentation framework that learns effectively from limited labels and adapts to novel domains without source-data retraining. We first design Hierarchical Layer Selection (HLS) to adaptively identify the most informative VFM layer using a data-dependent Exemplar Transfer Risk (ETR) computed for each candidate layer. Then, Prior-Guided Regularization (PGR) regularizes interactions on the selected representation, yielding well-structured local signals for the subsequent stage. Furthermore, Pixelwise Adaptive Calibration (PAC) combines the selected representation with the refined interaction maps to calibrate pixel-wise predictions, producing consistent masks. Together, these stages form a hierarchical select-regularize-calibrate pipeline that guides frozen VFM features in new domains while fine-tuning less than 2.7% of parameters at test time. Extensive experiments show that HERA surpasses the state of the art by more than 4.1 mIoU across multiple CD-FSS benchmarks.
Abstract（参考訳）: ビジョンファウンデーションモデル(VFM)は、様々なビジョンタスクにおいて強力なパフォーマンスを実現している。しかし、いくつかのラベル付き例を使って新しいクラスのオブジェクトをドメインシフトで分割するクロスドメイン・ショット・セグメンテーション(CD-FSS)にVFMを適用することは依然として困難である。課題は主に,(1) VFM事前訓練の規模に対して,新規クラス毎のラベル付き例に制限を課すこと,(2) 事前訓練中に過度に適合する傾向にあること,(2) ドメイン間の不整合や階層的感受性を引き起こすこと,の2つの要因によって引き起こされる。これらの問題に対処するため,Herarchical Exemplar Representation Adaptation (HERA) を提案する。まず階層層選択(HLS)を設計し、各候補層に対して計算されたデータ依存のExemplar Transfer Risk(ETR)を用いて、最も情報性の高いVFM層を適応的に識別する。次に、PGR(Presideed-Guided Regularization)は、選択した表現上の相互作用を正規化し、後続の段階でよく構造化された局所信号を生成する。さらに、Pixelwise Adaptive Calibration (PAC)は、選択された表現と洗練された相互作用マップを組み合わせることで、ピクセルワイズ予測を校正し、一貫したマスクを生成する。これらのステージは階層的な選択規則化キャリブレートパイプラインを形成し、新しいドメインで凍結されたVFM機能を誘導し、テスト時にパラメータの2.7%未満を微調整する。大規模な実験により、HERAは複数のCD-FSSベンチマークで4.1 mIoU以上を超越していることが示された。

関連論文リスト

OmniLiDAR: A Unified Diffusion Framework for Multi-Domain 3D LiDAR Generation [100.36917520403227]
本稿では,8つの代表領域にまたがる共有範囲画像表現において,LiDARスキャンを生成する統一テキスト条件拡散フレームワークを提案する。パブリックな統合ベンチマークがなければ、実世界のスキャンと物理ベース気象シミュレーションとシステマティックビームリダクションを組み合わせた8ドメインデータセットを構築する。
論文参考訳（メタデータ） (2026-05-13T17:42:20Z)
SoDa2: Single-Stage Open-Set Domain Adaptation via Decoupled Alignment for Cross-Scene Hyperspectral Image Classification [18.032864126948173]
リモートセンシングにおいて,HSI分類は基本的な研究課題である。オープンセットドメイン適応技術は、クロスシーンHSI分類に対処するために一般的に用いられる。本稿では, クロスシーンHSI分類のための非結合アライメントを用いた単一ステージ開集合領域適応法を提案する。
論文参考訳（メタデータ） (2026-05-05T05:26:08Z)
Progressive Multi-Level Alignments for Semi-Supervised Domain Adaptation SAR Target Recognition Using Simulated Data [3.1951121258423334]
我々は、ソースドメインインスタンスを対応するプロトタイプに近づけるために、インスタンス-プロトタイプアライメント(AIPA)戦略を開発する。また、ソースドメインインスタンスを対応するプロトタイプに近づけるための、インスタンス-プロトタイプアライメント(AIPA)戦略も開発しています。
論文参考訳（メタデータ） (2024-11-07T13:53:13Z)
Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文参考訳（メタデータ） (2024-03-15T03:58:17Z)
Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining [81.09446228688559]
Cross-Domain Few-Shots (CD-FSS) は、限定された例のみを用いて、異なるドメインから新しいカテゴリを分割するという課題を提起する。本稿では,CD-FSSの課題に対処する新しいクロスドメイン微調整手法を提案する。
論文参考訳（メタデータ） (2024-01-16T14:45:41Z)
UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。 UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。 1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2022-06-30T07:32:23Z)
Distribution Regularized Self-Supervised Learning for Domain Adaptation of Semantic Segmentation [3.284878354988896]
本稿では,セマンティックセグメンテーションの自己教師付きドメイン適応のための画素レベル分布正規化スキーム(DRSL)を提案する。典型的な環境では、分類損失はセマンティックセグメンテーションモデルにクラス間のバリエーションをキャプチャする表現を欲しがらせるように強制する。クラス認識型マルチモーダル分布学習により,ピクセルレベルのクラス内変動を捉える。
論文参考訳（メタデータ） (2022-06-20T09:52:49Z)
Amplitude Spectrum Transformation for Open Compound Domain Adaptive Semantic Segmentation [62.68759523116924]
オープン化合物ドメイン適応(OCDA)は、実用的な適応セットとして現れている。我々は、新しい特徴空間振幅スペクトル変換(AST)を提案する。
論文参考訳（メタデータ） (2022-02-09T05:40:34Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。