論文の概要: NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
- arxiv url: http://arxiv.org/abs/2511.18452v1
- Date: Sun, 23 Nov 2025 13:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.848598
- Title: NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
- Title(参考訳): NAF:Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
- Authors: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord,
- Abstract要約: 隣り合う注意フィルタリング(NAF)は、クロススケールな隣り合う注意と回転位置埋め込み(RoPE)を通して、適応的な空間・コンテンツ重みを学習する
NAFはゼロショットを運用しており、再訓練せずにヴィジョン・ファンデーション・モデル(VFM)の機能をアップサンプルしている。
高効率を維持し、2Kのフィーチャーマップにスケーリングし、18 FPSで中間解像度マップを再構築する。
- 参考スコア(独自算出の注目度): 80.55691420311616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
- Abstract(参考訳): ビジョンファウンデーションモデル(VFM)は、空間的に見下ろされた表現を抽出し、ピクセルレベルのタスクに挑戦する。
古典的なフィルタは高速で広く適用可能であるが、固定形式に依存しているのに対し、現代のアップサンプラーは学習可能でVFM固有の形式により、各VFMの再訓練に要するコストで優れた精度を達成する。
高精細画像のみに導かれるクロススケール隣りの注意と回転位置の埋め込み(RoPE)を通して、適応的な空間・コンテントの重みを学習することで、このギャップを埋めるNorighborhood Attention Filtering (NAF) を導入する。
NAFはゼロショットを運用しており、リトレーニングなしでVFMから機能をアップサンプルし、VFM固有のアップサンプルを上回り、複数のダウンストリームタスクで最先端のパフォーマンスを達成する最初のVFM非依存アーキテクチャである。
高効率を維持し、2Kのフィーチャーマップにスケーリングし、18 FPSで中間解像度マップを再構築する。
機能アップサンプリング以外にも、NAFは画像復元に強力なパフォーマンスを示し、その汎用性を強調している。
コードとチェックポイントはhttps://github.com/valeoai/NAF.comで入手できる。
関連論文リスト
- MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization [6.027431240137503]
クロスビューなジオローカライゼーションは、クエリ画像の地理的位置を画像ギャラリーとマッチングすることで決定することを目的としている。
この課題は、変数ビューから観察される物体の顕著な外観変化と、識別的特徴の抽出が困難であるために困難である。
既存のアプローチは、空間情報や意味情報を無視しながら特徴マップのセグメンテーションを通じて特徴を抽出することに依存することが多い。
論文 参考訳(メタデータ) (2025-09-16T04:51:52Z) - Fourier-Guided Attention Upsampling for Image Super-Resolution [0.13999481573773068]
周波数誘導アテンション(英: Frequency-Guided Attention, FGA)は、単一画像の超解像のための軽量アップサンプリングモジュールである。
試験の結果、PSNRの平均利得は0.120.14dB、周波数領域の整合性は最大29%向上した。
論文 参考訳(メタデータ) (2025-08-14T13:13:17Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models [27.379438040350188]
機能アップサンプリングは、この問題に対処するための有望な方向を提供する。
本稿では,高分解能画像を座標と低分解能VFM特徴と統合した座標ベースのクロスアテンション変換器を提案する。
提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
論文 参考訳(メタデータ) (2025-04-18T18:46:08Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。