論文の概要: DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2603.13571v1
- Date: Fri, 13 Mar 2026 20:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.280337
- Title: DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models
- Title(参考訳): DiveUp: さまざまなビジョンファウンデーションモデルから学ぶ機能アップサンプリング
- Authors: Xiaoqiong Liu, Heng Fan,
- Abstract要約: DiveUpは、マルチVFMリレーショナルガイダンスを導入することで、単一モデル依存から脱却する新しいフレームワークである。
本稿では,局所的中心-質量場 (COM) として定式化され,固有幾何学的構造を抽出する普遍的関係特徴表現を提案する。
DiveUpは統一されたエンコーダに依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 11.659303031631723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, feature upsampling has gained increasing attention owing to its effectiveness in enhancing vision foundation models (VFMs) for pixel-level understanding tasks. Existing methods typically rely on high-resolution features from the same foundation model to achieve upsampling via self-reconstruction. However, relying solely on intra-model features forces the upsampler to overfit to the source model's inherent location misalignment and high-norm artifacts. To address this fundamental limitation, we propose DiveUp, a novel framework that breaks away from single-model dependency by introducing multi-VFM relational guidance. Instead of naive feature fusion, DiveUp leverages diverse VFMs as a panel of experts, utilizing their structural consensus to regularize the upsampler's learning process, effectively preventing the propagation of inaccurate spatial structures from the source model. To reconcile the unaligned feature spaces across different VFMs, we propose a universal relational feature representation, formulated as a local center-of-mass (COM) field, that extracts intrinsic geometric structures, enabling seamless cross-model interaction. Furthermore, we introduce a spikiness-aware selection strategy that evaluates the spatial reliability of each VFM, effectively filtering out high-norm artifacts to aggregate guidance from only the most reliable expert at each local region. DiveUp is a unified, encoder-agnostic framework; a jointly-trained model can universally upsample features from diverse VFMs without requiring per-model retraining. Extensive experiments demonstrate that DiveUp achieves state-of-the-art performance across various downstream dense prediction tasks, validating the efficacy of multi-expert relational guidance. Our code and models are available at: https://github.com/Xiaoqiong-Liu/DiveUp
- Abstract(参考訳): 近年,画素レベルの理解タスクにおける視覚基盤モデル(VFM)の強化効果により,機能アップサンプリングが注目されている。
既存の手法は、通常、自己再構成によるアップサンプリングを達成するために、同じ基礎モデルの高精細な特徴に依存している。
しかし、モデル内機能のみに依存しているため、アップサンプラーはソースモデル固有の位置ずれや高ノルムのアーティファクトに過度に適合せざるを得ない。
この基本的な制限に対処するため,マルチVFMリレーショナルガイダンスを導入することで,単一モデル依存から脱却する新しいフレームワークであるDiveUpを提案する。
DiveUpは様々なVFMを専門家のパネルとして活用し、その構造的コンセンサスを利用してアップサンプラーの学習プロセスを規則化し、ソースモデルから不正確な空間構造の伝播を効果的に防止する。
異なるVFM間の不整合特徴空間の整合を図るために,局所的な中心-質量(COM)場として定式化され,固有幾何学的構造を抽出し,シームレスな相互モデル相互作用を実現する普遍的関係特徴表現を提案する。
さらに、各VFMの空間的信頼性を評価し、高ノルムなアーティファクトを効果的にフィルタリングし、各地域で最も信頼性の高い専門家のみからのガイダンスを集約するスパイキネス対応選択戦略を導入する。
DiveUpは統一されたエンコーダに依存しないフレームワークであり、共同で訓練されたモデルは、モデルごとのトレーニングを必要とせずに、様々なVFMから機能を増幅することができる。
大規模な実験により、DiveUpは様々な下流密集予測タスクにまたがって最先端の性能を達成し、マルチエキスパートリレーショナルガイダンスの有効性を検証した。
私たちのコードとモデルは、https://github.com/Xiaoqiong-Liu/DiveUpで利用可能です。
関連論文リスト
- FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文 参考訳(メタデータ) (2025-12-31T17:57:45Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering [80.55691420311616]
隣り合う注意フィルタリング(NAF)は、クロススケールな隣り合う注意と回転位置埋め込み(RoPE)を通して、適応的な空間・コンテンツ重みを学習する
NAFはゼロショットを運用しており、再訓練せずにヴィジョン・ファンデーション・モデル(VFM)の機能をアップサンプルしている。
高効率を維持し、2Kのフィーチャーマップにスケーリングし、18 FPSで中間解像度マップを再構築する。
論文 参考訳(メタデータ) (2025-11-23T13:43:52Z) - Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection [34.292554427633505]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースに制限されたオブジェクト検出器をターゲットドメインに適応することを目的としている。
ヴィジョン・ファンデーション・モデル(VFM)は、大規模で多様なデータに基づいて事前訓練され、強力な知覚能力と広範な一般化を示す。
本稿では,VFMを外部知識源として活用し,特徴アライメントとラベル品質を協調的に向上する新しいSFODフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T17:06:01Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Robust Federated Learning on Edge Devices with Domain Heterogeneity [13.362209980631876]
Federated Learning (FL)は、分散エッジデバイス間のデータプライバシを確保しながら、協調的なトレーニングを可能にする。
本稿では,FLグローバルモデルの一般化能力を向上させることにより,この問題に対処する新しいフレームワークを提案する。
特徴の多様性とモデルロバスト性を高めるために,プロトタイプベースのFLフレームワークであるFedAPCを紹介する。
論文 参考訳(メタデータ) (2025-05-15T09:53:14Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。