論文の概要: Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration
- arxiv url: http://arxiv.org/abs/2404.02424v2
- Date: Mon, 24 Jun 2024 21:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:09:17.381117
- Title: Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration
- Title(参考訳): ビジョンランゲージモデルにおけるプルーニングの再考:効果的なスパーシリティとパフォーマンス回復のための戦略
- Authors: Shwai He, Ang Li, Tianlong Chen,
- Abstract要約: VLM(Vision-Language Models)は、複数のモードからの情報を統合し、様々なタスクで顕著な成功を収めた。
本研究は,異なるモダリティ特化モデルに対して空間分布を分散する方法と,刈り取ったスパースVLMの性能を回復する方法という,2つの重要な疑問に対処する。
- 参考スコア(独自算出の注目度): 41.714059733079374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) integrate information from multiple modalities and have shown remarkable success across various tasks. However, deploying large-scale VLMs in resource-constrained scenarios is challenging. Pruning followed by finetuning offers a potential solution but remains underexplored for VLMs. This study addresses two key questions: how to distribute sparsity across different modality-specific models, and how to restore the performance of pruned sparse VLMs. Our preliminary studies identified two effective pruning settings: applying the same sparsity to both vision and language models, and pruning only the language models. While LoRA finetuning aims to restore sparse models, it faces challenges due to incompatibility with sparse models, disrupting the pruned sparsity. To overcome these issues, we propose SparseLoRA, which applies sparsity directly to LoRA weights. Our experimental results demonstrate significant improvements, including an 11.3\% boost under 2:4 sparsity and a 47.6\% enhancement under unstructured 70\% sparsity. Code is released at: \url{https://github.com/Shwai-He/VLM-Compression}.
- Abstract(参考訳): VLM(Vision-Language Models)は、複数のモードからの情報を統合し、様々なタスクで顕著な成功を収めている。
しかし、リソース制約のあるシナリオに大規模なVLMをデプロイすることは困難である。
プルーニングとファインタニングは潜在的な解決策を提供するが、VLMには未熟である。
本研究は,異なるモダリティ特化モデルに対して空間分布を分散する方法と,刈り取ったスパースVLMの性能を回復する方法という,2つの重要な疑問に対処する。
予備研究では、視覚モデルと言語モデルの両方に同じ疎度を適用し、言語モデルのみをプルーニングする2つの効果的なプルーニング設定を特定した。
LoRAファインタニングはスパースモデルを復元することを目的としているが、スパースモデルとの互換性の欠如によって困難に直面する。
これらの問題を克服するため、我々はSparseLoRAを提案し、これはLoRAの重みに空間性を直接適用する。
実験の結果,2:4間隔で11.3\%,非構造70\%間隔で47.6\%向上した。
コードは以下の通り。 \url{https://github.com/Shwai-He/VLM-Compression}。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery [42.018731237153446]
大規模言語モデル(LLM)は、人工知能の景観を変革した。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
LoRAShear は LLM のフットプリントを 20% 削減した。
論文 参考訳(メタデータ) (2023-10-24T00:47:26Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Less is More -- Towards parsimonious multi-task models using structured
sparsity [4.874780144224057]
この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。
マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
論文 参考訳(メタデータ) (2023-08-23T13:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。