論文の概要: M$^2$IST: Multi-Modal Interactive Side-Tuning for Memory-efficient Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2407.01131v1
- Date: Mon, 1 Jul 2024 09:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:09:47.006938
- Title: M$^2$IST: Multi-Modal Interactive Side-Tuning for Memory-efficient Referring Expression Comprehension
- Title(参考訳): M$^2$IST: メモリ効率の参照式理解のためのマルチモード対話型サイドチューニング
- Authors: Xuyang Liu, Ting Liu, Siteng Huang, Yue Hu, Quanjun Yin, Donglin Wang, Honggang Chen,
- Abstract要約: 参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
M$2$IST: Multi-Modal Interactive Side-Tuning with M$3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters。
- 参考スコア(独自算出の注目度): 36.7152754974329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring expression comprehension (REC) is a vision-language task to locate a target object in an image based on a language expression. Fully fine-tuning general-purpose pre-trained models for REC yields impressive performance but becomes increasingly costly. Parameter-efficient transfer learning (PETL) methods have shown strong performance with fewer tunable parameters. However, applying PETL to REC faces two challenges: (1) insufficient interaction between pre-trained vision and language encoders, and (2) high GPU memory usage due to gradients passing through both heavy encoders. To address these issues, we present M$^2$IST: Multi-Modal Interactive Side-Tuning with M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters. During fine-tuning, we keep the pre-trained vision and language encoders fixed and update M$^3$ISAs on side networks to establish connections between them, thereby achieving parameter- and memory-efficient tuning for REC. Empirical results on three benchmarks show M$^2$IST achieves the best performance-parameter-memory trade-off compared to full fine-tuning and other PETL methods, with only 3.14M tunable parameters (2.11% of full fine-tuning) and 15.44GB GPU memory usage (39.61% of full fine-tuning). Source code will soon be publicly available.
- Abstract(参考訳): 参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
RECのための完全な微調整された汎用事前訓練モデルは、素晴らしい性能を得るが、ますますコストがかかる。
パラメータ効率変換学習 (PETL) 法は, 調整可能なパラメータが少なく, 高い性能を示した。
しかし、PETLをRECに適用することは、(1)事前学習された視覚と言語エンコーダの相互作用が不十分なこと、(2)重エンコーダを経由する勾配による高いGPUメモリ使用率の2つの課題に直面している。
これらの問題に対処するため、M$^2$IST:M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adaptersを提案する。
微調整中は、事前学習されたビジョンと言語エンコーダを固定し、M$^3$ISAsをサイドネットワーク上で更新し、それら間の接続を確立することにより、RECのためのパラメータとメモリ効率のチューニングを実現する。
M$^2$ISTはフル微調整や他のPETL法と比較して最高のパフォーマンスパラメータ-メモリトレードオフを達成し、3.14Mのチューナブルパラメータ(フル微調整の2.11%)と15.44GBのGPUメモリ使用率(フル微調整の39.61%)を達成している。
ソースコードはまもなく公開される予定だ。
関連論文リスト
- Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Parameter-efficient is not sufficient: Exploring Parameter, Memory, and
Time Efficient Adapter Tuning for Dense Predictions [9.068569788978854]
パラメータ効率変換学習 (PETL) 法は, 訓練可能なパラメータの少ない下流タスクに適応する上で, 有望な性能を示した。
コンピュータビジョン(CV)におけるPETL法は、計算コストが高く、訓練中に大量のメモリと時間コストを必要とする。
MathrmE3VA$は62.2%のトレーニングメモリと26.2%のトレーニング時間を節約できる。
論文 参考訳(メタデータ) (2023-06-16T09:54:07Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers [29.721162097790646]
SPARTANは、エッジデバイスのためのパラメータ効率(PE)と計算的に高速なアーキテクチャである。
トランスフォーマー層の後、階層的に整理されたスパースメモリを追加する。
数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内で実行することができる。
論文 参考訳(メタデータ) (2022-11-29T23:59:20Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。