論文の概要: LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors
- arxiv url: http://arxiv.org/abs/2403.14625v2
- Date: Tue, 29 Oct 2024 01:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:03.190780
- Title: LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors
- Title(参考訳): LiFT:高密度なViTディスクリプタのための、驚くほどシンプルな軽量機能変換
- Authors: Saksham Suri, Matthew Walmer, Kamal Gupta, Abhinav Shrivastava,
- Abstract要約: 本稿では、高密度下流タスクにおけるVT機能の性能を向上させるための簡易な自己教師手法を提案する。
我々の軽量特徴変換(LiFT)は、単純でコンパクトな後処理ネットワークである。
LiFTは自己指導型で高速かつ容易に訓練でき、ViT機能の密度を最小限の余分な推論コストで向上させる。
- 参考スコア(独自算出の注目度): 37.0695578788184
- License:
- Abstract: We present a simple self-supervised method to enhance the performance of ViT features for dense downstream tasks. Our Lightweight Feature Transform (LiFT) is a straightforward and compact postprocessing network that can be applied to enhance the features of any pre-trained ViT backbone. LiFT is fast and easy to train with a self-supervised objective, and it boosts the density of ViT features for minimal extra inference cost. Furthermore, we demonstrate that LiFT can be applied with approaches that use additional task-specific downstream modules, as we integrate LiFT with ViTDet for COCO detection and segmentation. Despite the simplicity of LiFT, we find that it is not simply learning a more complex version of bilinear interpolation. Instead, our LiFT training protocol leads to several desirable emergent properties that benefit ViT features in dense downstream tasks. This includes greater scale invariance for features, and better object boundary maps. By simply training LiFT for a few epochs, we show improved performance on keypoint correspondence, detection, segmentation, and object discovery tasks. Overall, LiFT provides an easy way to unlock the benefits of denser feature arrays for a fraction of the computational cost. For more details, refer to our project page at https://www.cs.umd.edu/~sakshams/LiFT/.
- Abstract(参考訳): 本稿では、高密度下流タスクにおけるVT機能の性能を向上させるための簡易な自己教師手法を提案する。
我々の軽量特徴変換(LiFT)は、任意のトレーニング済みViTバックボーンの機能を強化するために適用可能な、単純でコンパクトな後処理ネットワークである。
LiFTは自己指導型で高速かつ容易に訓練でき、ViT機能の密度を最小限の余分な推論コストで向上させる。
さらに、COCO検出とセグメンテーションのためにLiFTとViTDetを統合することで、タスク固有の下流モジュールを使用するアプローチでLiFTを適用できることを実証する。
LiFTの単純さにもかかわらず、より複雑な双線型補間法を学習しているわけではないことが分かる。
代わりに、我々のLiFTトレーニングプロトコルは、高密度下流タスクにおいてViT機能に利益をもたらすいくつかの望ましい創発性をもたらす。
これには、機能に対する大きなスケールの不変性や、よりよいオブジェクト境界マップが含まれる。
いくつかのエポックでLiFTをトレーニングすることで、キーポイント対応、検出、セグメンテーション、オブジェクト発見タスクの性能が改善された。
全体として、LiFTはより高密度な特徴配列の利点を計算コストのごく一部で解放する簡単な方法を提供する。
詳細は、https://www.cs.umd.edu/~sakshams/LiFT/のプロジェクトページを参照してください。
関連論文リスト
- Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - Slicing Vision Transformer for Flexible Inference [79.35046907288518]
一つのネットワークが複数の小さな ViT を表現できるように,Scala という名前の汎用フレームワークを提案する。
S Scalaは、パラメータが少ないImageNet-1Kで平均1.6%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T05:31:42Z) - Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - EfficientLPS: Efficient LiDAR Panoptic Segmentation [30.249379810530165]
我々は、LiDARポイントクラウドのセグメント化における複数の課題に対処する新しい効率的なLiDARパンオプティクスアーキテクチャを紹介します。
効率的なLPSは、拡張された幾何変換モデリング能力で符号化される新しい共有バックボーンからなる。
提案したモデルを2つの大規模LiDARデータセットでベンチマークする。
論文 参考訳(メタデータ) (2021-02-16T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。