論文の概要: Improving Adaptability and Generalizability of Efficient Transfer
Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.15569v1
- Date: Mon, 27 Nov 2023 06:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:50:32.724636
- Title: Improving Adaptability and Generalizability of Efficient Transfer
Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける効率的な転送学習の適応性と一般化性の向上
- Authors: Yongjin Yang, Jongwoo Ko, Se-Young Yun
- Abstract要約: 我々は視覚・言語モデル(VLM)が視覚とテキストのプロンプト、アダプタ、それらの組み合わせを用いてどのように振る舞うかを経験的に分析する。
そこで本研究では,クラス分離性に対する視覚的プロンプトとタスク適応のためのテキストアダプタの利用が,適応性と一般化性に不可欠であることが確認された。
本稿では,VLMの一般的な知識と,伝達難度に応じてタスク固有の知識を効果的に組み合わせた適応型アンサンブル手法を提案する。
- 参考スコア(独自算出の注目度): 31.533917265867466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) like CLIP have demonstrated remarkable
applicability across a variety of downstream tasks, including zero-shot image
classification. Recently, the use of prompts or adapters for efficient transfer
learning has gained significant attention for effectively adapting to
downstream tasks. However, the roles of vision and text prompts, as well as
adapters in terms of generalization and transfer difficulty, have been
overlooked, limiting performance on unseen tasks. In this paper, we empirically
analyze how VLMs behave when using vision and text prompts, adapters, and a
combination of these components, marking a novel exploration by our study. Our
observations find that utilizing vision prompts for class separability and text
adapters for task adaptation is crucial for adaptability and generalizability.
Moreover, to improve generalization across every domain, we propose an adaptive
ensemble method that effectively combines the general knowledge of VLMs with
task-specific knowledge according to transfer difficulty. Upon experimenting
with extensive benchmarks, our method consistently outperforms all baselines,
particularly on unseen tasks, demonstrating the effectiveness of our proposed
approach.
- Abstract(参考訳): CLIPのようなVLM(Vision-Language Models)は、ゼロショット画像分類など、さまざまな下流タスクに顕著な適用性を示している。
近年,効率的な伝達学習のためのプロンプトやアダプタの利用が,下流タスクに効果的に適応する上で大きな注目を集めている。
しかし、視覚とテキストのプロンプトの役割や、一般化と転送の難しさの観点からのアダプタは見過ごされ、目に見えないタスクのパフォーマンスが制限された。
本稿では,視覚とテキストのプロンプト,アダプタ,これらの組み合わせを用いて,VLMの動作を実証的に分析し,本研究による新たな探索を行った。
その結果,視覚プロンプトをクラス分離性に,テキストアダプタをタスク適応に活用することが適応性と一般化性に不可欠であることが判明した。
さらに,各領域の一般化を改善するために,VLMの一般知識とタスク固有の知識を伝達困難に応じて効果的に組み合わせた適応アンサンブル手法を提案する。
広範なベンチマーク実験を行った結果,本手法は,提案手法の有効性を実証し,すべてのベースライン,特に未知のタスクを一貫して上回っている。
関連論文リスト
- AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。
APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文 参考訳(メタデータ) (2024-01-12T04:54:01Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。