論文の概要: TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter
- arxiv url: http://arxiv.org/abs/2306.12642v1
- Date: Thu, 22 Jun 2023 03:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:34:14.112764
- Title: TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter
- Title(参考訳): TaCA:タスクに依存しない互換アダプタでVisual Foundationモデルをアップグレード
- Authors: Binjie Zhang, Yixiao Ge, Xuyuan Xu, Ying Shan, Mike Zheng Shou
- Abstract要約: 視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
- 参考スコア(独自算出の注目度): 21.41170708560114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual foundation models like CLIP excel in learning feature representations
from extensive datasets through self-supervised methods, demonstrating
remarkable transfer learning and generalization capabilities. A growing number
of applications based on visual foundation models are emerging, including
innovative solutions such as BLIP-2. These applications employ pre-trained CLIP
models as upstream feature extractors and train various downstream modules to
accomplish diverse tasks. In situations involving system upgrades that require
updating the upstream foundation model, it becomes essential to re-train all
downstream modules to adapt to the new foundation model, which is inflexible
and inefficient. In this paper, we introduce a parameter-efficient and
task-agnostic adapter, dubbed TaCA, that facilitates compatibility across
distinct foundation models while ensuring enhanced performance for the new
models. TaCA allows downstream applications to seamlessly integrate
better-performing foundation models without necessitating retraining. We
conduct extensive experimental validation of TaCA using different scales of
models with up to one billion parameters on various tasks such as video-text
retrieval, video recognition, and visual question answering. The results
consistently demonstrate the emergent ability of TaCA on hot-plugging upgrades
for visual foundation models. Codes and models will be available at
https://github.com/TencentARC/TaCA.
- Abstract(参考訳): CLIPのようなビジュアルファウンデーションモデルは、広範なデータセットから自己教師付きメソッドを通じて特徴表現を学習し、顕著な転送学習と一般化能力を示す。
BLIP-2のような革新的なソリューションを含む、視覚基盤モデルに基づくアプリケーションが増えつつある。
これらのアプリケーションは上流の機能抽出器として事前訓練されたクリップモデルを採用し、様々な下流モジュールを訓練して様々なタスクをこなす。
上流のファウンデーションモデルを更新する必要のあるシステムアップグレードに関わる状況では、新しいファウンデーションモデルに適応するためにすべての下流モジュールを再トレーニングすることが不可欠になる。
本稿では,新しいモデルの性能向上を図りつつ,異なる基盤モデル間の互換性を容易にする,パラメータ効率とタスクに依存しないアダプタ taca を提案する。
TaCAは、ダウンストリームアプリケーションが再トレーニングを必要とせずに、より良いパフォーマンスの基盤モデルをシームレスに統合することを可能にする。
我々は,ビデオテキスト検索,ビデオ認識,視覚的質問応答などの様々なタスクにおいて,最大10億パラメータの異なるモデルのスケールを用いて,tacaの広範囲な実験的検証を行う。
その結果、視覚基礎モデルのホットプラグアップグレードにおけるTaCAの創発的能力が一貫して示された。
コードとモデルはhttps://github.com/TencentARC/TaCA.comから入手できる。
関連論文リスト
- A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Model Ratatouille: Recycling Diverse Models for Out-of-Distribution
Generalization [99.6826401545377]
ファウンデーションモデルは、AIシステムの構築方法を再定義している。実践者は、機械学習ソリューションを構築するための標準手順に従う。
我々は,多種多様な補助的タスクにおいて,同じ基礎モデルの複数の微調整をリサイクルする新しい戦略であるモデルラタトゥーイユを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:21:46Z) - ModelCI-e: Enabling Continual Learning in Deep Learning Serving Systems [21.37434583546624]
本稿では,この問題を解決するために,ModelCI-e(継続的インテグレーションと進化)と呼ばれる軽量MLOpsプラグインを実装した。
ModelCI-eは継続学習(CL)とMLデプロイメント技術を採用し、モデルの更新と検証をエンドツーエンドでサポートする。
予備的な結果は、ModelCI-eのユーザビリティを示し、モデル更新と推論ワークロード間の干渉を取り除くことが、システム効率の向上に不可欠であることを示している。
論文 参考訳(メタデータ) (2021-06-06T13:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。