論文の概要: APoLLo: Unified Adapter and Prompt Learning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2312.01564v1
- Date: Mon, 4 Dec 2023 01:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:47:54.725121
- Title: APoLLo: Unified Adapter and Prompt Learning for Vision Language Models
- Title(参考訳): APoLLo: ビジョン言語モデルのための統一アダプタとプロンプト学習
- Authors: Sanjoy Chowdhury, Sayan Nag, Dinesh Manocha
- Abstract要約: 本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
- 参考スコア(独自算出の注目度): 58.9772868980283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of input text prompt plays a critical role in the performance of
Vision-Language Pretrained (VLP) models such as CLIP. We present APoLLo, a
unified multi-modal approach that combines Adapter and Prompt learning for
Vision-Language models. Our method is designed to substantially improve the
generalization capabilities of VLP models when they are fine-tuned in a
few-shot setting. We introduce trainable cross-attention-based adapter layers
in conjunction with vision and language encoders to strengthen the alignment
between the two modalities. We enforce consistency between the respective
encoder branches (receiving augmented inputs) to prevent overfitting in
downstream tasks. Our method is evaluated on three representative tasks:
generalization to novel classes, cross-dataset evaluation, and unseen domain
shifts. In practice, APoLLo achieves a relative gain up to 6.03% over MaPLe
(SOTA) on novel classes for 10 diverse image recognition datasets.
- Abstract(参考訳): 入力テキストの選択は、CLIPのようなVLP(Vision-Language Pretrained)モデルの性能において重要な役割を果たす。
視覚言語モデルのためのアダプタとプロンプト学習を組み合わせた,統合型マルチモーダルアプローチであるapolloを提案する。
本手法は,数ショットで微調整された場合のVLPモデルの一般化能力を大幅に向上する。
トレーニング可能なクロスアテンションベースのアダプタ層を視覚と言語エンコーダと組み合わせて導入し、2つのモード間のアライメントを強化する。
下流タスクの過度な適合を防止するため、各エンコーダブランチ間の整合性(追加入力の受信)を強制する。
提案手法は,新しいクラスへの一般化,クロスデータセット評価,未確認領域シフトの3つのタスクで評価される。
実際には、APoLLoは10種類の画像認識データセットのための新しいクラスにおいて、MaPLe (SOTA)よりも6.03%向上している。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter [21.45490901191175]
PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
論文 参考訳(メタデータ) (2024-02-16T18:54:47Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。