論文の概要: JAFAR: Jack up Any Feature at Any Resolution
- arxiv url: http://arxiv.org/abs/2506.11136v1
- Date: Tue, 10 Jun 2025 20:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.501023
- Title: JAFAR: Jack up Any Feature at Any Resolution
- Title(参考訳): JAFAR:どんな解像度でも、どんな機能でもロックアップできる
- Authors: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome,
- Abstract要約: JAFARは、Foundation Visionsの軽量で柔軟な機能アップサンプラーである。
これは、どんなファンデーションビジョンから任意の目標解像度まで、視覚的特徴の空間分解能を高める。
非常に高い出力スケールに非常によく一般化する。
- 参考スコア(独自算出の注目度): 53.343826346140624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation Vision Encoders have become essential for a wide range of dense vision tasks. However, their low-resolution spatial feature outputs necessitate feature upsampling to produce the high-resolution modalities required for downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible feature upsampler that enhances the spatial resolution of visual features from any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs an attention-based module designed to promote semantic alignment between high-resolution queries, derived from low-level image features, and semantically enriched low-resolution keys, using Spatial Feature Transform (SFT) modulation. Notably, despite the absence of high-resolution supervision, we demonstrate that learning at low upsampling ratios and resolutions generalizes remarkably well to significantly higher output scales. Extensive experiments show that JAFAR effectively recovers fine-grained spatial details and consistently outperforms existing feature upsampling methods across a diverse set of downstream tasks. Project page at https://jafar-upsampler.github.io
- Abstract(参考訳): ファンデーションビジョンエンコーダは、広範囲の高密度ビジョンタスクに欠かせないものとなっている。
しかし、その低分解能な空間的特徴出力は、下流タスクに必要な高分解能なモダリティを生成するために、特徴のアップサンプリングを必要とする。
本研究では,ファウンデーションビジョンエンコーダから任意の目標解像度への視覚的特徴の空間分解能を高める軽量でフレキシブルな機能アップサンプラーであるJAFARを紹介する。
JAFARは、低レベルの画像特徴から派生した高解像度クエリと、空間的特徴変換(SFT)変調を用いて、セマンティックに強化された低解像度キー間のセマンティックアライメントを促進するために設計されたアテンションベースのモジュールを使用している。
特に、高解像度の監督が欠如しているにもかかわらず、低いサンプリング率と解像度での学習は、非常に高い出力スケールに非常によく一般化することを示した。
大規模な実験により、JAFARは細粒度の空間的詳細を効果的に回収し、様々な下流タスクで既存の機能アップサンプリング手法を一貫して上回っていることが示された。
Project page at https://jafar-upsampler.github.io
関連論文リスト
- Model-Guided Network with Cluster-Based Operators for Spatio-Spectral Super-Resolution [2.874893537471256]
論文は、低分解能マルチスペクトル観測から高分解能ハイパースペクトル像を再構成する問題に対処する。
本稿では,共同分光超分解能問題を空間超分解能,スペクトル超分解能,融合タスクに明示的に分解するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T13:54:47Z) - LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models [27.379438040350188]
機能アップサンプリングは、この問題に対処するための有望な方向を提供する。
本稿では,高分解能画像を座標と低分解能VFM特徴と統合した座標ベースのクロスアテンション変換器を提案する。
提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
論文 参考訳(メタデータ) (2025-04-18T18:46:08Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めた
ほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。
SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文 参考訳(メタデータ) (2022-03-16T20:10:41Z) - EDN: Salient Object Detection via Extremely-Downsampled Network [66.38046176176017]
画像全体のグローバルビューを効果的に学ぶために、極端なダウンサンプリング技術を使用するExtremely-Downsampled Network(EDN)を紹介します。
実験は、ednがリアルタイム速度でsart性能を達成することを実証する。
論文 参考訳(メタデータ) (2020-12-24T04:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。