論文の概要: LPT++: Efficient Training on Mixture of Long-tailed Experts
- arxiv url: http://arxiv.org/abs/2409.11323v1
- Date: Tue, 17 Sep 2024 16:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:47:40.978296
- Title: LPT++: Efficient Training on Mixture of Long-tailed Experts
- Title(参考訳): LPT++: 長い尾を持つエキスパートの混在を効果的に訓練する
- Authors: Bowen Dong, Pan Zhou, Wangmeng Zuo,
- Abstract要約: ++は3つのコアコンポーネントを統合することで、凍結されたビジョントランスフォーマー(ViT)を強化する。
1つ目は、長い尾のプロンプトと視覚的アダプタを集約して、トレーニング済みのモデルを対象のドメインに適応させる、普遍的な長い尾の適応モジュールである。
2つ目は、長い尾を持つエキスパートフレームワークと、より正確な予測を生成するために、視覚のみと視覚言語(VL)の両方のモデルエキスパートからの信頼度スコアに対する再重み付け係数を適応的に計算するMoEスコアラーの混合である。
- 参考スコア(独自算出の注目度): 107.78420448806357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce LPT++, a comprehensive framework for long-tailed classification that combines parameter-efficient fine-tuning (PEFT) with a learnable model ensemble. LPT++ enhances frozen Vision Transformers (ViTs) through the integration of three core components. The first is a universal long-tailed adaptation module, which aggregates long-tailed prompts and visual adapters to adapt the pretrained model to the target domain, meanwhile improving its discriminative ability. The second is the mixture of long-tailed experts framework with a mixture-of-experts (MoE) scorer, which adaptively calculates reweighting coefficients for confidence scores from both visual-only and visual-language (VL) model experts to generate more accurate predictions. Finally, LPT++ employs a three-phase training framework, wherein each critical module is learned separately, resulting in a stable and effective long-tailed classification training paradigm. Besides, we also propose the simple version of LPT++ namely LPT, which only integrates visual-only pretrained ViT and long-tailed prompts to formulate a single model method. LPT can clearly illustrate how long-tailed prompts works meanwhile achieving comparable performance without VL pretrained models. Experiments show that, with only ~1% extra trainable parameters, LPT++ achieves comparable accuracy against all the counterparts.
- Abstract(参考訳): LPT++は,パラメータ効率の良い微調整(PEFT)と学習可能なモデルアンサンブルを組み合わせた,長い尾の分類のための包括的フレームワークである。
LPT++は3つのコアコンポーネントを統合することで、凍結したビジョントランスフォーマー(ViT)を強化する。
1つ目は、長い尾のプロンプトと視覚的アダプタを集約して、事前訓練されたモデルをターゲット領域に適応させ、一方で識別能力を向上させる、普遍的な長い尾の適応モジュールである。
2つ目は、長い尾を持つエキスパートフレームワークと、より正確な予測を生成するために、視覚のみと視覚言語(VL)の両方のモデルエキスパートからの信頼度スコアに対する再重み付け係数を適応的に計算するMoEスコアラーの混合である。
最後に、LCT++は3段階のトレーニングフレームワークを採用しており、各クリティカルモジュールを別々に学習することで、安定的で効果的な分類訓練パラダイムを実現する。
また,LPT++ のシンプルなバージョンである LPT も提案する。これは視覚のみの事前訓練された ViT と長い尾のプロンプトのみを統合して,単一のモデル法を定式化する。
LPTは、VL事前訓練モデルなしでは同等のパフォーマンスを達成する一方で、長い尾のプロンプトがどのように機能するかを明確に示すことができる。
実験によると、トレーニング可能なパラメータを1%追加するだけで、LPT++はすべてのパラメータに対して同等の精度を達成できる。
関連論文リスト
- CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Unlocking the Potential of Prompt-Tuning in Bridging Generalized and
Personalized Federated Learning [49.72857433721424]
Vision Transformer (ViT) と Visual Prompt Tuning (VPT) は、様々なコンピュータビジョンタスクの効率を改善して最先端のパフォーマンスを実現する。
本稿では,GFL(Generalized FL)とPFL(Personalized FL)を組み合わせた新しいアルゴリズムSGPTを提案する。
論文 参考訳(メタデータ) (2023-10-27T17:22:09Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - LPT: Long-tailed Prompt Tuning for Image Classification [178.52948452353834]
凍結事前訓練モデルに複数のトレーニング可能なプロンプトを導入し、長い尾を持つデータに適用する。
フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。
フェーズ2では、学習した共有プロンプトをクエリとして使用し、類似したサンプルのグループに対して、マッチした小さなベストセットを選択する。
論文 参考訳(メタデータ) (2022-10-03T15:47:02Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training [9.511101155155957]
視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。
本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-30T04:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。