論文の概要: Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2402.02340v1
- Date: Sun, 4 Feb 2024 04:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:25:52.409668
- Title: Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning
- Title(参考訳): 深層学習におけるパラメータ効率の良い微調整のための視覚プロンプトからのセマンティックプロキシの学習
- Authors: Li Ren, Chen Chen, Liqiang Wang, Kien Hua
- Abstract要約: 既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.254782791542329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Metric Learning (DML) has long attracted the attention of the machine
learning community as a key objective. Existing solutions concentrate on
fine-tuning the pre-trained models on conventional image datasets. As a result
of the success of recent pre-trained models trained from larger-scale datasets,
it is challenging to adapt the model to the DML tasks in the local data domain
while retaining the previously gained knowledge. In this paper, we investigate
parameter-efficient methods for fine-tuning the pre-trained model for DML
tasks. In particular, we propose a novel and effective framework based on
learning Visual Prompts (VPT) in the pre-trained Vision Transformers (ViT).
Based on the conventional proxy-based DML paradigm, we augment the proxy by
incorporating the semantic information from the input image and the ViT, in
which we optimize the visual prompts for each class. We demonstrate that our
new approximations with semantic information are superior to representative
capabilities, thereby improving metric learning performance. We conduct
extensive experiments to demonstrate that our proposed framework is effective
and efficient by evaluating popular DML benchmarks. In particular, we
demonstrate that our fine-tuning method achieves comparable or even better
performance than recent state-of-the-art full fine-tuning works of DML while
tuning only a small percentage of total parameters.
- Abstract(参考訳): ディープラーニング(Deep Metric Learning, DML)は、機械学習コミュニティの注目を集めてきた。
既存のソリューションは、トレーニング済みのモデルを従来のイメージデータセットで微調整することに集中している。
大規模データセットからトレーニングされた最近の事前学習モデルの成功により、これまで得られた知識を維持しながら、ローカルデータ領域のDMLタスクにモデルを適応することは困難である。
本稿では,DMLタスクの事前学習モデルを微調整するためのパラメータ効率の手法について検討する。
特に,事前学習された視覚トランスフォーマー (vit) における学習視覚プロンプト (vpt) に基づく新しい効果的なフレームワークを提案する。
従来のプロキシベースのDMLパラダイムに基づいて、入力画像とViTからのセマンティック情報を組み込むことでプロキシを強化し、各クラスに対する視覚的プロンプトを最適化する。
我々は,意味情報を用いた新しい近似が代表的能力よりも優れていることを実証し,メートル法学習性能を向上した。
提案するフレームワークは,一般的なDMLベンチマークを評価することで,効率的かつ効果的であることを示す。
特に,我々の微調整手法は,dmlの最新の完全微調整作業と同等あるいはそれ以上の性能を達成できるが,全体のパラメータの微調整は少ない。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z) - Revisiting Training Strategies and Generalization Performance in Deep
Metric Learning [28.54755295856929]
我々は、最も広く使われているDML目的関数を再検討し、重要なパラメータ選択について検討する。
一貫した比較では、DMLの目的は文学で示されるよりもはるかに高い飽和を示す。
これらの知見を公開し、ランキングベースのDMLモデルの性能を確実に向上させるために、単純かつ効果的に正規化を訓練することを提案する。
論文 参考訳(メタデータ) (2020-02-19T22:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。