論文の概要: Weighted Reverse Convolution for Feature Upsampling
- arxiv url: http://arxiv.org/abs/2605.17472v2
- Date: Wed, 20 May 2026 04:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.298914
- Title: Weighted Reverse Convolution for Feature Upsampling
- Title(参考訳): 機能アップサンプリングのための重み付きリバースコンボリューション
- Authors: Wentong Li, Zhiyuan Qi, Zichen Zhao, Kai Zhang, Lei Zhang,
- Abstract要約: WRC(Weighted Reverse Convolution)は、高レベルな視覚ディスクリプタをデジタイズするための空間適応型逆演算子である。
WRCは空間的に異なる特徴に適応し、過剰な平滑化を緩和しながら重要な構造を保存する。
WRCは、セグメンテーション、深さ推定、ビデオオブジェクトのセグメンテーション、オブジェクト発見、キーポイント対応など、様々なダウンストリームベンチマークにおける機能品質を一貫して改善している。
- 参考スコア(独自算出の注目度): 11.417895756597545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision foundation models (VFMs) provide strong semantic representations, yet their patch-level features are inherently coarse, limiting their effectiveness on tasks requiring fine-grained localization, dense prediction, and point-wise correspondence. In this work, we revisit feature upsampling for VFMs from the perspective of \textbf{\textit{inverse problem}} and propose Weighted Reverse Convolution (WRC), a spatially adaptive inverse operator for densifying high-level visual descriptors. Specifically, we formulate feature upsampling as a weighted Tikhonov-regularized least-squares problem, where spatially varying weights modulate both data fidelity and prior strength at each spatial location. This allows WRC to adapt the reconstruction to spatially varying feature characteristics, thereby preserving critical structures while mitigating over-smoothing. Moreover, WRC retains an efficient, fully differentiable closed-form FFT solution, making it a practical drop-in upsampling operator. Integrated into a lightweight self-supervised densification framework, WRC consistently improves dense feature quality across various downstream benchmarks, including segmentation, depth estimation, video object segmentation, object discovery, and keypoint correspondence, while maintaining high computational efficiency.
- Abstract(参考訳): 事前学習された視覚基盤モデル(VFM)は強力な意味表現を提供するが、パッチレベルの特徴は本質的に粗いものであり、微粒な局所化、密度予測、ポイントワイド対応を必要とするタスクにおける有効性を制限している。
本稿では,高次視覚ディスクリプタを密度化するための空間適応型逆変換演算子であるWeighted Reverse Convolution (WRC)を提案する。
具体的には,重み付けされたTikhonov-regularized least-squares問題として,空間的に異なる重みが各空間位置におけるデータの忠実度と事前強度を変調する特徴サンプリングを定式化する。
これにより、WRCは再構成を空間的に異なる特徴に適応させ、過剰な平滑化を緩和しながら重要な構造を保存することができる。
さらに、WRCは効率的で完全に微分可能な閉形式FFT溶液を保持しており、事実上のドロップインアップサンプリング演算子である。
軽量な自己監督型デンシフィケーションフレームワークに統合され、WRCは高い計算効率を維持しながら、セグメンテーション、深さ推定、ビデオオブジェクトセグメンテーション、オブジェクト発見、キーポイント対応など、様々なダウンストリームベンチマークにおける高密度な特徴品質を継続的に改善する。
関連論文リスト
- Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Geometrically Constrained and Token-Based Probabilistic Spatial Transformers [5.437226012505534]
我々は、トランスフォーマーベースのビジョンパイプラインの標準化ツールとして、空間トランスフォーマーネットワーク(STN)を再考する。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
論文 参考訳(メタデータ) (2025-09-14T11:30:53Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。