論文の概要: LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors
- arxiv url: http://arxiv.org/abs/2403.14625v2
- Date: Tue, 29 Oct 2024 01:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:03.190780
- Title: LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors
- Title(参考訳): LiFT:高密度なViTディスクリプタのための、驚くほどシンプルな軽量機能変換
- Authors: Saksham Suri, Matthew Walmer, Kamal Gupta, Abhinav Shrivastava,
- Abstract要約: 本稿では、高密度下流タスクにおけるVT機能の性能を向上させるための簡易な自己教師手法を提案する。
我々の軽量特徴変換(LiFT)は、単純でコンパクトな後処理ネットワークである。
LiFTは自己指導型で高速かつ容易に訓練でき、ViT機能の密度を最小限の余分な推論コストで向上させる。
- 参考スコア(独自算出の注目度): 37.0695578788184
- License:
- Abstract: We present a simple self-supervised method to enhance the performance of ViT features for dense downstream tasks. Our Lightweight Feature Transform (LiFT) is a straightforward and compact postprocessing network that can be applied to enhance the features of any pre-trained ViT backbone. LiFT is fast and easy to train with a self-supervised objective, and it boosts the density of ViT features for minimal extra inference cost. Furthermore, we demonstrate that LiFT can be applied with approaches that use additional task-specific downstream modules, as we integrate LiFT with ViTDet for COCO detection and segmentation. Despite the simplicity of LiFT, we find that it is not simply learning a more complex version of bilinear interpolation. Instead, our LiFT training protocol leads to several desirable emergent properties that benefit ViT features in dense downstream tasks. This includes greater scale invariance for features, and better object boundary maps. By simply training LiFT for a few epochs, we show improved performance on keypoint correspondence, detection, segmentation, and object discovery tasks. Overall, LiFT provides an easy way to unlock the benefits of denser feature arrays for a fraction of the computational cost. For more details, refer to our project page at https://www.cs.umd.edu/~sakshams/LiFT/.
- Abstract(参考訳): 本稿では、高密度下流タスクにおけるVT機能の性能を向上させるための簡易な自己教師手法を提案する。
我々の軽量特徴変換(LiFT)は、任意のトレーニング済みViTバックボーンの機能を強化するために適用可能な、単純でコンパクトな後処理ネットワークである。
LiFTは自己指導型で高速かつ容易に訓練でき、ViT機能の密度を最小限の余分な推論コストで向上させる。
さらに、COCO検出とセグメンテーションのためにLiFTとViTDetを統合することで、タスク固有の下流モジュールを使用するアプローチでLiFTを適用できることを実証する。
LiFTの単純さにもかかわらず、より複雑な双線型補間法を学習しているわけではないことが分かる。
代わりに、我々のLiFTトレーニングプロトコルは、高密度下流タスクにおいてViT機能に利益をもたらすいくつかの望ましい創発性をもたらす。
これには、機能に対する大きなスケールの不変性や、よりよいオブジェクト境界マップが含まれる。
いくつかのエポックでLiFTをトレーニングすることで、キーポイント対応、検出、セグメンテーション、オブジェクト発見タスクの性能が改善された。
全体として、LiFTはより高密度な特徴配列の利点を計算コストのごく一部で解放する簡単な方法を提供する。
詳細は、https://www.cs.umd.edu/~sakshams/LiFT/のプロジェクトページを参照してください。
関連論文リスト
- Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - EfficientLPS: Efficient LiDAR Panoptic Segmentation [30.249379810530165]
我々は、LiDARポイントクラウドのセグメント化における複数の課題に対処する新しい効率的なLiDARパンオプティクスアーキテクチャを紹介します。
効率的なLPSは、拡張された幾何変換モデリング能力で符号化される新しい共有バックボーンからなる。
提案したモデルを2つの大規模LiDARデータセットでベンチマークする。
論文 参考訳(メタデータ) (2021-02-16T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。