論文の概要: UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling
- arxiv url: http://arxiv.org/abs/2302.06605v2
- Date: Sun, 21 May 2023 17:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:10:01.194618
- Title: UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling
- Title(参考訳): UniAdapter: クロスモーダルモデリングのための統一パラメータ効率変換学習
- Authors: Haoyu Lu, Yuqi Huo, Guoxing Yang, Zhiwu Lu, Wei Zhan, Masayoshi
Tomizuka, Mingyu Ding
- Abstract要約: 本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
- 参考スコア(独自算出の注目度): 49.134517040512414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language pre-trained models have shown promising
transferability to various downstream tasks. As the size of these foundation
models and the number of downstream tasks grow, the standard full fine-tuning
paradigm becomes unsustainable due to heavy computational and storage costs.
This paper proposes UniAdapter, which unifies unimodal and multimodal adapters
for parameter-efficient cross-modal adaptation on pre-trained vision-language
models. Specifically, adapters are distributed to different modalities and
their interactions, with the total number of tunable parameters reduced by
partial weight sharing. The unified and knowledge-sharing design enables
powerful cross-modal representations that can benefit various downstream tasks,
requiring only 1.0%-2.0% tunable parameters of the pre-trained model. Extensive
experiments on 6 cross-modal downstream benchmarks (including video-text
retrieval, image-text retrieval, VideoQA, and VQA) show that in most cases,
UniAdapter not only outperforms the state-of-the-arts, but even beats the full
fine-tuning strategy. Particularly, on the MSRVTT retrieval task, UniAdapter
achieves 49.7% recall@1 with 2.2% model parameters, outperforming the latest
competitors by 2.0%. The code and models are available at
https://github.com/RERV/UniAdapter.
- Abstract(参考訳): 大規模視覚言語事前学習モデルでは、様々な下流タスクに有望な転送性が示されている。
これらの基礎モデルのサイズと下流タスクの数が増えるにつれて、計算とストレージのコストが重いため、標準の完全な微調整パラダイムは持続不可能になる。
本論文では,事前学習された視覚言語モデルに対するパラメータ効率のクロスモーダル適応のためのユニモーダルおよびマルチモーダルアダプタを統一するUniAdapterを提案する。
具体的には、アダプタは異なるモダリティとそれらの相互作用に分散され、部分的な重量共有によって調整可能なパラメータの総数は減少する。
統一された知識共有設計は、様々な下流タスクに役立つ強力なクロスモーダル表現を可能にし、事前訓練されたモデルの1.0%-2.0%のパラメータしか必要としない。
6つのクロスモーダルな下流ベンチマーク(ビデオテキスト検索、画像テキスト検索、ビデオQA、VQAを含む)の大規模な実験は、ほとんどの場合、UniAdapterが最先端技術を上回るだけでなく、完全な微調整戦略に勝っていることを示している。
特にmsrvtt検索タスクでは、uniadapterは2.2%のモデルパラメータで49.7%のre recall@1を達成し、最新の競合相手を2.0%上回っている。
コードとモデルはhttps://github.com/rerv/uniadapterで入手できる。
関連論文リスト
- Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models [38.751158173278796]
この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。
XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。
次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
論文 参考訳(メタデータ) (2024-04-19T02:33:23Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。