論文の概要: SIGMA: Bridging Structural and Distributional Gaps for Vision Foundation Model Adaptation
- arxiv url: http://arxiv.org/abs/2605.27893v1
- Date: Wed, 27 May 2026 03:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.708638
- Title: SIGMA: Bridging Structural and Distributional Gaps for Vision Foundation Model Adaptation
- Title(参考訳): SIGMA:ビジョンファウンデーションモデル適応のためのブリッジング構造と分散ギャップ
- Authors: Lingyu Xiong, Jinjin Shi, Xuran Xu, Cong Luo, Runyu Shi, Ying Huang,
- Abstract要約: Vision Foundation Models (VFM) は印象的な表現能力を示している。
textbfScale-textbfIntegrated textbfGlobal textbfModulation textbfAdapter (textbfAdapter)
- 参考スコア(独自算出の注目度): 5.145184780729273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) have demonstrated impressive representational capabilities. However, adapting them to downstream tasks via full fine-tuning incurs prohibitive computational and storage overhead. Parameter-Efficient Fine-Tuning (PEFT) has emerged as a compelling alternative, aiming to achieve performance parity with full fine-tuning at minimal training costs. Nonetheless, applying PEFT to VFMs for dense prediction tasks remains challenging due to the structural and distributional gaps. To bridge these gaps, we propose \textbf{S}cale-\textbf{I}ntegrated \textbf{G}lobal \textbf{M}odulation \textbf{A}dapter (\textbf{SIGMA}), a novel lightweight PEFT method, which consists of two modules: scale-adaptive fusion and semantic modulation. Specifically, the scale-adaptive fusion module is utilized to bridge structural gaps by enhancing the extraction of multi-granularity visual information. Furthermore, SIGMA introduces semantic modulation on the fusion features to perform global feature alignment to further eliminate the distribution gap. This design facilitates unified spatial and distributional adaptation, requiring only 1.72\% trainable parameters relative to the VFM backbone. Comprehensive experiments across various downstream dense tasks and multiple VFM backbones demonstrate that SIGMA achieves consistent and superior performance over state-of-the-art PEFT methods.
- Abstract(参考訳): Vision Foundation Models (VFM) は印象的な表現能力を示している。
しかし、完全な微調整によるダウンストリームタスクへの適応は、計算とストレージのオーバーヘッドを禁止します。
パラメータ効率の良いファインチューニング(PEFT)は、最小のトレーニングコストで完全なファインチューニングでパフォーマンスを同等にすることを目的として、魅力的な代替手段として登場した。
それでも, PEFTを高密度予測タスクに適用することは, 構造的および分布的ギャップのため, 依然として困難である。
これらのギャップを埋めるために、スケール適応融合とセマンティック変調という2つのモジュールからなる新しいPEFT法である \textbf{S}cale-\textbf{I}ntegrated \textbf{G}lobal \textbf{M}odulation \textbf{A}dapter (\textbf{SIGMA})を提案する。
具体的には、このスケール適応型融合モジュールを用いて、多粒度視覚情報の抽出を強化することにより、構造的ギャップを橋渡しする。
さらに、SIGMAは、拡散特性のセマンティック変調を導入し、グローバルな特徴アライメントを行い、分散ギャップをさらに排除する。
この設計は空間と分布の統一化を促進し、VFMバックボーンに対して1.72\%のトレーニング可能なパラメータしか必要としない。
様々な下流の高密度タスクと複数のVFMバックボーンにわたる総合的な実験により、SIGMAは最先端PEFT法よりも一貫した優れた性能を発揮することを示した。
関連論文リスト
- MAny: Merge Anything for Multimodal Continual Instruction Tuning [52.50936513604062]
textbfMAny(textbfMAny)は、textbfCross-modal textbfProjection textbfMergingを通じてタスク固有の知識を統合するフレームワークである。
textbfLow-rank textbfParameter textbfMerging (textbfLPM)
論文 参考訳(メタデータ) (2026-04-15T15:57:23Z) - Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks [3.4782736103257323]
本稿では,マルチスケール空間適応注意ネットワーク(MSAAN)と呼ばれる,軽量画像超解像(SR)ネットワークを提案する。
提案手法のコアとなるのは,局所的な細部と長期のコンテキスト依存性を協調的にモデル化する,マルチスケール空間適応型注意モジュール(MSAA)である。
論文 参考訳(メタデータ) (2026-02-22T07:47:39Z) - Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - One for All: An End-to-End Compact Solution for Hand Gesture Recognition [8.321276216978637]
本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。
提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。
Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
論文 参考訳(メタデータ) (2021-05-15T05:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。