論文の概要: Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.12588v1
- Date: Fri, 19 Apr 2024 02:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.666656
- Title: Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models
- Title(参考訳): クロスモーダルアダプタ:視覚言語モデルに対するパラメータ効率の良い伝達学習手法
- Authors: Juncheng Yang, Zuchao Li, Shuai Xie, Weiping Zhu, Wei Yu, Shijun Li,
- Abstract要約: この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。
XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。
次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
- 参考スコア(独自算出の注目度): 38.751158173278796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapter-based parameter-efficient transfer learning has achieved exciting results in vision-language models. Traditional adapter methods often require training or fine-tuning, facing challenges such as insufficient samples or resource limitations. While some methods overcome the need for training by leveraging image modality cache and retrieval, they overlook the text modality's importance and cross-modal cues for the efficient adaptation of parameters in visual-language models. This work introduces a cross-modal parameter-efficient approach named XMAdapter. XMAdapter establishes cache models for both text and image modalities. It then leverages retrieval through visual-language bimodal information to gather clues for inference. By dynamically adjusting the affinity ratio, it achieves cross-modal fusion, decoupling different modal similarities to assess their respective contributions. Additionally, it explores hard samples based on differences in cross-modal affinity and enhances model performance through adaptive adjustment of sample learning intensity. Extensive experimental results on benchmark datasets demonstrate that XMAdapter outperforms previous adapter-based methods significantly regarding accuracy, generalization, and efficiency.
- Abstract(参考訳): 適応型パラメータ効率変換学習は視覚言語モデルにおいてエキサイティングな結果を得た。
従来のアダプタ手法ではトレーニングや微調整が必要であり、サンプル不足やリソース制限といった課題に直面している。
画像モダリティキャッシュと検索を利用することで、トレーニングの必要性を克服する手法もあるが、視覚言語モデルにおけるパラメータの効率的な適応のために、テキストモダリティの重要性とクロスモーダルな方法を見落としている。
この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。
XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。
次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
アフィニティ比を動的に調整することにより、異なるモーダル類似性を分離し、それぞれのコントリビューションを評価する。
さらに、クロスモーダル親和性の違いに基づいてハードサンプルを探索し、サンプル学習強度の適応調整によりモデル性能を向上させる。
ベンチマークデータセットの大規模な実験結果から、XMAdapterは、精度、一般化、効率に関して、従来のアダプタベースの手法よりも優れていたことが示されている。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities [56.666806962214565]
我々は,他のモダリティからの無関係なデータを用いて,特定のモダリティのトランスフォーマーを改善することを提案する。
我々は、他のモダリティのデータで訓練された補助変圧器を使用し、2つのモデルのコンポーネントを接続するための経路を構築している。
我々は、他のモダリティの無関係なデータを用いて、顕著で一貫したパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-01-25T18:59:58Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Prompt Tuning based Adapter for Vision-Language Model Adaption [38.576215369504446]
本稿では、事前学習したプロンプト・タニングと効率的な適応ネットワークを組み合わせた、Prompt-Adapterと呼ばれる新しいモデルを提案する。
我々のアプローチは、パブリックな11のデータセットの少数ショット画像分類において最先端の手法を上回った。
提案手法は,高速な視覚言語モデル適応のために,プロンプトチューニングとパラメータ効率のよいネットワークを組み合わせることの可能性を実証する。
論文 参考訳(メタデータ) (2023-03-24T15:05:17Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Parameter-efficient Model Adaptation for Vision Transformers [45.3460867776953]
画像分類タスクにおける視覚変換器のパラメータ効率モデル適応戦略について検討する。
本稿では,局所固有次元を測定することで,まずサブモジュールを選択するパラメータ効率のよいモデル適応フレームワークを提案する。
提案手法は,20画像分類データセット間の精度とパラメータ効率のトレードオフを最良とする。
論文 参考訳(メタデータ) (2022-03-29T05:30:09Z) - Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in
Multimodal Transformers [15.826109118064716]
事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。
本稿では,モーダル間入力アブレーションに基づく診断手法を提案し,それらのモデルが実際にモーダル間情報を統合する程度を評価する。
論文 参考訳(メタデータ) (2021-09-09T17:47:50Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。