論文の概要: Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.15569v2
- Date: Fri, 11 Oct 2024 06:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:49.113989
- Title: Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための難易度非依存的伝達学習に向けて
- Authors: Yongjin Yang, Jongwoo Ko, Se-Young Yun,
- Abstract要約: 本稿では,各手法が伝達困難に対してどのように振る舞うかを実証的に分析する。
本稿では,視覚的プロンプトとテキストアダプタを事前学習したVLMとを組み合わせた適応型アンサンブル手法を提案する。
- 参考スコア(独自算出の注目度): 28.057588125823266
- License:
- Abstract: Vision-language models (VLMs) like CLIP have demonstrated remarkable applicability across a variety of downstream tasks, including zero-shot image classification. Recently, the use of prompts or adapters for efficient transfer learning (ETL) has gained significant attention for effectively adapting to downstream tasks. However, previous studies have overlooked the challenge of varying transfer difficulty of downstream tasks. In this paper, we empirically analyze how each ETL method behaves with respect to transfer difficulty. Our observations indicate that utilizing vision prompts and text adapters is crucial for adaptability and generalizability in domains with high difficulty. Also, by applying an adaptive ensemble approach that integrates task-adapted VLMs with pre-trained VLMs and strategically leverages more general knowledge in low-difficulty and less in high-difficulty domains, we consistently enhance performance across both types of domains. Based on these observations, we propose an adaptive ensemble method that combines visual prompts and text adapters with pre-trained VLMs, tailored by transfer difficulty, to achieve optimal performance for any target domain. Upon experimenting with extensive benchmarks, our method consistently outperforms all baselines, particularly on unseen tasks, demonstrating its effectiveness.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、ゼロショット画像分類など、さまざまな下流タスクで顕著な適用性を示している。
近年,効率的な伝達学習(ETL)のためのプロンプトやアダプタの利用が,下流タスクに効果的に対応する上で大きな注目を集めている。
しかし、従来の研究では、下流タスクの転送難度が異なるという課題を見落としていた。
本稿では,各ETL法が転送困難に対してどのように振る舞うかを実証的に解析する。
本研究は,視覚的プロンプトとテキストアダプタの活用が,高難易度領域における適応性と一般化性に不可欠であることを示唆する。
また,タスク適応型 VLM と事前学習型 VLM を統合した適応型アンサンブルアプローチを適用し,低微分領域におけるより一般的な知識を戦略的に活用することにより,両領域間の性能を継続的に向上する。
そこで本研究では,視覚的プロンプトとテキストアダプタを,転送難度に応じて調整した事前学習VLMとを組み合わせた適応アンサンブル法を提案し,任意の対象領域に対して最適な性能を実現する。
広範囲なベンチマークで実験すると、この手法は、特に目に見えないタスクにおいて、すべてのベースラインを一貫して上回り、その効果を実証する。
関連論文リスト
- Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - Empowering Source-Free Domain Adaptation with MLLM-driven Curriculum Learning [5.599218556731767]
Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットデータのみを使用して、トレーニング済みのソースモデルをターゲットドメインに適応することを目的としている。
Reliability-based Curriculum Learning (RCL)は、SFDAの擬似ラベルによる知識活用のために複数のMLLMを統合している。
論文 参考訳(メタデータ) (2024-05-28T17:18:17Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。
APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文 参考訳(メタデータ) (2024-01-12T04:54:01Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。