論文の概要: MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2603.25744v1
- Date: Thu, 26 Mar 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.435699
- Title: MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
- Title(参考訳): MuRF:ビジョンファウンデーションモデルのマルチスケールポテンシャルを解き放つ
- Authors: Bocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee,
- Abstract要約: multi-Resolution Fusion (MuRF) は、このシナジーを推論時に活用するための単純かつ普遍的な戦略である。
MuRFは、凍結されたVFMを通して複数の解像度で画像を処理して統一表現を構築する。
我々は、 MuRF を複数の異なる VFM ファミリーにまたがる重要なコンピュータビジョンタスクの幅広い範囲に適用することによって、これを実証的に検証する。
- 参考スコア(独自算出の注目度): 34.365616310655575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.
- Abstract(参考訳): ビジョンファウンデーション・モデル(VFM)は現代のコンピュータビジョンの基盤となり、幅広いタスクにわたって堅牢な表現を提供する。
最近の進歩により、これらのモデルはトレーニング中に様々な入力サイズを処理できるが、推論は通常、1つの固定スケールに制限される。
様々な解像度は相補的帰納的バイアスを与え、大域的な意味認識に優れた低解像度のビューと高解像度のビューはきめ細かな精細化に不可欠である。
本研究では,この相乗効果を推論時に活用するための簡易かつ汎用的な戦略であるmulti-Resolution Fusion (MuRF)を提案する。
MuRFは単一のビューに頼るのではなく、凍結されたVFMを通して複数の解像度で画像を処理し、結果として生じる特徴を融合することで統一された表現を構築する。
MuRFの普遍性は最も説得力のある属性である。
特定のアーキテクチャに縛られず、代わりに視覚表現に対する基本的な、トレーニングなしの強化として機能する。
我々は、MuRFを複数の異なるVFMファミリー(主にDINOv2)にまたがる重要なコンピュータビジョンタスクに応用することにより、これを実証的に検証すると同時に、SigLIP2のような対照的なモデルへの一般化を成功させる。
関連論文リスト
- DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models [11.659303031631723]
DiveUpは、マルチVFMリレーショナルガイダンスを導入することで、単一モデル依存から脱却する新しいフレームワークである。
本稿では,局所的中心-質量場 (COM) として定式化され,固有幾何学的構造を抽出する普遍的関係特徴表現を提案する。
DiveUpは統一されたエンコーダに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-03-13T20:20:22Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Mask-Based Modeling for Neural Radiance Fields [20.728248301818912]
本研究では,マスクベースモデリングにより3次元暗黙表現学習を大幅に改善できることを明らかにする。
MRVM-NeRFは,各光線に沿った部分的マスキング特徴から,シーンの完全な表現を予測するための自己教師付き事前学習対象である。
この事前学習目標により、MRVM-NeRFは、幾何学的先行として異なる点とビュー間の相関をよりよく利用することができる。
論文 参考訳(メタデータ) (2023-04-11T04:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。