論文の概要: LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2504.14032v1
- Date: Fri, 18 Apr 2025 18:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:49:54.260804
- Title: LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
- Title(参考訳): LoftUp: ビジョンファウンデーションモデルのためのコーディネートベースの機能アップサンプラーを学ぶ
- Authors: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang,
- Abstract要約: 機能アップサンプリングは、この問題に対処するための有望な方向を提供する。
本稿では,高分解能画像を座標と低分解能VFM特徴と統合した座標ベースのクロスアテンション変換器を提案する。
提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
- 参考スコア(独自算出の注目度): 27.379438040350188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.
- Abstract(参考訳): DINOv2やCLIPのようなビジョン基礎モデル(VFM)は、様々なダウンストリームタスクにおいて印象的な結果を得たが、ピクセルレベルの理解を必要とするアプリケーションでは、その限られた機能解像度がパフォーマンスを損なう。
機能アップサンプリングは、この問題に対処するための有望な方向を提供する。
本研究では,機能アップサンプリングを強化するための重要な要因として,アップサンプラーアーキテクチャとトレーニング目標の2つを特定する。
アップサンプラーアーキテクチャでは、高解像度画像を座標と低解像度のVFM特徴と統合し、シャープで高品質な特徴を生成する座標ベースのクロスアテンショントランスフォーマーを導入する。
トレーニング目的のために,クラス非依存マスクと自己蒸留を利用して,高分解能な擬似地下構造を構築することを提案する。
提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
実験により,本手法は様々な下流タスクにおいて,既存の機能アップサンプリング技術よりも大幅に優れていることを示した。
私たちのコードはhttps://github.com/andrehuang/loftup.comで公開されています。
関連論文リスト
- DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion [58.36400052566673]
赤外線および可視画像融合は、異なるスペクトルバンドからの情報を統合して画質を向上させる。
既存のアプローチでは、画像融合とそれに続くハイレベルなタスクを別プロセスとして扱う。
本稿では、視覚的品質と知覚精度を同時に向上させるDCEvoと呼ばれる識別的クロス次元進化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:01:58Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Wider and Higher: Intensive Integration and Global Foreground Perception
for Image Matting [44.51635913732913]
本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。
画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。
Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
論文 参考訳(メタデータ) (2022-10-13T11:34:46Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。