論文の概要: MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning
- arxiv url: http://arxiv.org/abs/2404.05621v1
- Date: Mon, 8 Apr 2024 15:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:45:54.581339
- Title: MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning
- Title(参考訳): MultiFLOW:タスク非依存のビジョンランゲージ・プルーニングへのシフト
- Authors: Matteo Farina, Massimiliano Mancini, Elia Cunegatti, Gaowen Liu, Giovanni Iacca, Elisa Ricci,
- Abstract要約: VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
- 参考スコア(独自算出の注目度): 28.254318215697527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While excellent in transfer learning, Vision-Language models (VLMs) come with high computational costs due to their large number of parameters. To address this issue, removing parameters via model pruning is a viable solution. However, existing techniques for VLMs are task-specific, and thus require pruning the network from scratch for each new task of interest. In this work, we explore a new direction: Task-Agnostic Vision-Language Pruning (TA-VLP). Given a pretrained VLM, the goal is to find a unique pruned counterpart transferable to multiple unknown downstream tasks. In this challenging setting, the transferable representations already encoded in the pretrained model are a key aspect to preserve. Thus, we propose Multimodal Flow Pruning (MULTIFLOW), a first, gradient-free, pruning framework for TA-VLP where: (i) the importance of a parameter is expressed in terms of its magnitude and its information flow, by incorporating the saliency of the neurons it connects; and (ii) pruning is driven by the emergent (multimodal) distribution of the VLM parameters after pretraining. We benchmark eight state-of-the-art pruning algorithms in the context of TA-VLP, experimenting with two VLMs, three vision-language tasks, and three pruning ratios. Our experimental results show that MULTIFLOW outperforms recent sophisticated, combinatorial competitors in the vast majority of the cases, paving the way towards addressing TA-VLP. The code is publicly available at https://github.com/FarinaMatteo/multiflow.
- Abstract(参考訳): トランスファーラーニングには優れているが、VLM(Vision-Language Model)は多数のパラメーターのために計算コストが高い。
この問題に対処するためには、モデルプルーニングによるパラメータの削除が実行可能なソリューションである。
しかしながら、VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
本研究では,タスク非依存型ビジョンランゲージ・プルーニング(TA-VLP)という新たな方向性を探求する。
事前訓練されたVLMが与えられた場合、ゴールは、未知の下流タスクに転送可能なユニークな刈り取られたタスクを見つけることである。
この挑戦的な設定では、既に事前訓練されたモデルにエンコードされている転送可能な表現は、保存すべき重要な側面である。
そこで我々は, TA-VLPのための第1, グラデーションフリー・プルーニングフレームワークであるmultimodal Flow Pruning (MULTIFLOW)を提案する。
一 パラメータの重要性は、その大きさ及び情報の流れにおいて、接続するニューロンの塩分濃度を組み込むことにより表される。
(II)プレトレーニング後のVLMパラメータの創発的(マルチモーダル)分布によりプルーニングを駆動する。
TA-VLPの文脈で8つの最先端プルーニングアルゴリズムをベンチマークし、2つのVLM、3つの視覚言語タスク、3つのプルーニング比を実験した。
実験の結果,MultiFLOWはTA-VLPに対処する上で,近年の高度で複合的な競合相手よりも優れていた。
コードはhttps://github.com/FarinaMatteo/multiflow.comで公開されている。
関連論文リスト
- Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。