論文の概要: Task Residual for Tuning Vision-Language Models
- arxiv url: http://arxiv.org/abs/2211.10277v1
- Date: Fri, 18 Nov 2022 15:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:08:59.096495
- Title: Task Residual for Tuning Vision-Language Models
- Title(参考訳): 視覚言語モデルのチューニングのためのタスク残差
- Authors: Tao Yu, Zhihe Lu, Xin Jin, Zhibo Chen, Xinchao Wang
- Abstract要約: タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
- 参考スコア(独自算出の注目度): 69.22958802711017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (VLMs) pre-trained on billion-level data
have learned general visual representations and broad visual concepts. In
principle, the well-learned knowledge structure of the VLMs should be inherited
appropriately when being transferred to downstream tasks with limited data.
However, most existing efficient transfer learning (ETL) approaches for VLMs
either damage or are excessively biased towards the prior knowledge, e.g.,
prompt tuning (PT) discards the pre-trained text-based classifier and builds a
new one while adapter-style tuning (AT) fully relies on the pre-trained
features. To address this, we propose a new efficient tuning approach for VLMs
named Task Residual Tuning (TaskRes), which performs directly on the text-based
classifier and explicitly decouples the prior knowledge of the pre-trained
models and new knowledge regarding a target task. Specifically, TaskRes keeps
the original classifier weights from the VLMs frozen and obtains a new
classifier for the target task by tuning a set of prior-independent parameters
as a residual to the original one, which enables reliable prior knowledge
preservation and flexible task-specific knowledge exploration. The proposed
TaskRes is simple yet effective, which significantly outperforms previous ETL
methods (e.g., PT and AT) on 11 benchmark datasets while requiring minimal
effort for the implementation. Our code will be available at
https://github.com/geekyutao/TaskRes.
- Abstract(参考訳): 数十億レベルのデータに事前訓練された大規模視覚言語モデル(VLM)は、一般的な視覚表現と広い視覚概念を学んだ。
原則として、VLMの知識構造は、限られたデータで下流タスクに転送される際に適切に継承されるべきである。
しかしながら、VLMの既存の効率的な転写学習(ETL)アプローチは、損傷するか、事前知識に過度に偏っている。例えば、即時チューニング(PT)は、事前訓練されたテキストベースの分類器を捨て、新しいものを構築する。
そこで本研究では,テキストベース分類器上で直接動作し,事前学習したモデルの事前知識と目標タスクに関する新たな知識を明示的に分離するタスク残差調整(TaskRes)という,VLMの効率的なチューニング手法を提案する。
具体的には、TaskResは、元の分類器の重みをVLMから凍結させ、初期独立パラメータのセットを元のパラメータの残余としてチューニングすることで、目標タスクの新しい分類器を取得し、信頼性の高い事前知識保存と柔軟なタスク固有の知識探索を可能にする。
提案するtaskresは単純かつ効果的であり、実装に最小限の労力を要しながら、11のベンチマークデータセットで以前のetlメソッド(例えばptとat)を著しく上回っている。
私たちのコードはhttps://github.com/geekyutao/taskresで利用可能です。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - Continual Class Incremental Learning for CT Thoracic Segmentation [36.45569352490318]
深層学習機関のセグメンテーションアプローチは大量の注釈付きトレーニングデータを必要とするが、これは機密性の理由と専門家の手による注釈に必要な時間のために供給が限られている。
以前使用されていたデータにアクセスせずに、段階的にモデルをトレーニングできることが望ましい。
この設定では、モデルは新しいタスクを効果的に学習するが、以前に学習したタスクのパフォーマンスが低下する。
LwF(Learning without Forgetting)アプローチは、モデルトレーニング中に過去のタスクに対する独自の予測を再生することでこの問題に対処する。
従来のセグメンテーションに関する知識をLwFが保持できることを示すが、新しいクラスを学習する能力は減少する。
論文 参考訳(メタデータ) (2020-08-12T20:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。