論文の概要: Metric-Guided Feature Fusion of Visual Foundation Models for Segmentation Tasks
- arxiv url: http://arxiv.org/abs/2605.16864v1
- Date: Sat, 16 May 2026 07:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.208115
- Title: Metric-Guided Feature Fusion of Visual Foundation Models for Segmentation Tasks
- Title(参考訳): 分割作業のためのビジュアルファンデーションモデルのメトリックガイド機能融合
- Authors: Yachan Guo, JoseLuis Gomez Zurita, Danna Xue, Yi Xiao, AntonioManuel Lopez Pena,
- Abstract要約: 大規模視覚基盤モデル (VFM) は、高密度予測タスクのインスタンス認識において、まだ性能が劣っている。
本稿では,異なるVFMの相補的特徴を効果的に選択・集約する計量誘導手法を提案する。
本モデルでは,複数の高密度な予測タスクに対して,ベースラインと比較して一貫した性能向上を示す。
- 参考スコア(独自算出の注目度): 5.5299638491215495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large-scale visual foundation models (VFMs) achieve remarkable performance in semantic understanding, they still underperform in instance-aware dense prediction tasks. They exhibit different biases in representation: for instance, promptable segmentation models (e.g., SAM2) focus on fine-grained region boundaries, while self-supervised models (e.g., DINOv3) emphasize object-level structure. This observation highlights the potential of combining complementary features from different VFMs to enhance downstream dense prediction tasks. However, naive multi-VFM fusion seldom leads to reliable gains, and interpretable principles for leveraging their complementary features are still underexplored. In this work, we propose a metric-guided approach that effectively selects and aggregates complementary features from different VFMs based on explicit assessment scores. Specifically, we design a suite of label-free metrics in feature space across two aspects, Structural Coherence and Edge Fidelity, to assess features of VFM encoders. Guided by these scores, we identify complementary edge-strong and structure-strong encoder pairs, and integrate them via a master-auxiliary fusion scheme. This feature fusion requires no complex architectural changes and is trained only in a single stage. Our model shows consistent performance gains across multiple dense prediction tasks compared with the baselines, with better object-level semantics and more accurately localized boundaries. The code is available at {https://github.com/gyc-code/metric-guided-fusion}.
- Abstract(参考訳): 大規模視覚基盤モデル(VFM)はセマンティック理解において顕著な性能を発揮するが、それでも高密度な予測タスクでは性能が劣る。
例えば、プロンプト可能なセグメンテーションモデル(SAM2)はきめ細かい領域の境界に焦点をあてるが、自己監督モデル(DINOv3)はオブジェクトレベルの構造を強調する。
この観察は、下流の高密度予測タスクを強化するために、異なるVFMの相補的な特徴を組み合わせる可能性を強調している。
しかし、単純多VFM融合は信頼性の高い利得をもたらすことはめったになく、それらの相補的特徴を利用するための解釈可能な原理はまだ未定である。
そこで本研究では,評価スコアに基づいて,異なるVFMの相補的特徴を効果的に選択・集約する計量誘導手法を提案する。
具体的には、VFMエンコーダの特徴を評価するために、構造コヒーレンスとエッジフィデリティという2つの側面にまたがる特徴空間におけるラベルなしメトリクスのスイートを設計する。
これらのスコアに導かれ、相補的なエッジストロングと構造ストロングエンコーダのペアを特定し、マスター・オッソリ・フュージョン・スキームを介してそれらを統合する。
このフィーチャの融合は複雑なアーキテクチャの変更を必要とせず、単一のステージでのみ訓練される。
モデルでは,複数の高密度な予測タスクに対して,オブジェクトレベルのセマンティクスが向上し,より正確な局所化境界が得られた。
コードは、https://github.com/gyc-code/metric-guided-fusion}で入手できる。
関連論文リスト
- Semantic Generative Tuning for Unified Multimodal Models [62.18894352635965]
統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と視覚的生成を統合する。
訓練パラダイムは 独立して テキスト信号を通して 理解を最適化する 密集したピクセルの目的を通して 生成する
本研究は,UMMの分離を橋渡しするための生成プロキシとして階層的視覚タスクを定式化する,生成後学習に関する最初の体系的な研究である。
論文 参考訳(メタデータ) (2026-05-18T17:46:46Z) - DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models [11.659303031631723]
DiveUpは、マルチVFMリレーショナルガイダンスを導入することで、単一モデル依存から脱却する新しいフレームワークである。
本稿では,局所的中心-質量場 (COM) として定式化され,固有幾何学的構造を抽出する普遍的関係特徴表現を提案する。
DiveUpは統一されたエンコーダに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-03-13T20:20:22Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - Matching-Based Few-Shot Semantic Segmentation Models Are Interpretable by Design [8.993770750003673]
Few-Shot Semantic (FSS)モデルは、最小限のラベル付き例を持つ新規クラスのセグメンテーションにおいて強力な性能を達成する。
本稿では、マッチングベースのFSSモデルを解釈するための最初の専用手法を提案する。
Affinity Explainer アプローチは,画像のどのピクセルがクエリセグメンテーション予測に最も寄与しているかを示す属性マップを抽出する。
論文 参考訳(メタデータ) (2025-11-22T19:22:10Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。