論文の概要: RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation
- arxiv url: http://arxiv.org/abs/2404.02424v1
- Date: Wed, 3 Apr 2024 03:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:39:40.549444
- Title: RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation
- Title(参考訳): RESSA:スパース・クロスモーダル適応によるスパース・ビジョン・ランゲージモデルの修復
- Authors: Shwai He, Tianlong Chen,
- Abstract要約: Sparse Cross-modality Adaptation (RESSA) によるスパース視覚言語モデルの修復を提案する。
RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。
また、SparseLoRAを導入し、LoRA重みに直接スパシティを適用し、スパースモデルとのシームレスな統合を可能にする。
- 参考スコア(独自算出の注目度): 38.62539028454178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs), integrating diverse information from multiple modalities, have shown remarkable success across various tasks. However, deploying VLMs, comprising large-scale vision and language models poses challenges in resource-constrained scenarios. While pruning followed by finetuning offers a potential solution to maintain performance with smaller model sizes, its application to VLMs remains relatively unexplored, presenting two main questions: how to distribute sparsity across different modality-specific models, and how to repair the performance of pruned sparse VLMs. To answer the first question, we conducted preliminary studies on VLM pruning and found that pruning vision models and language models with the same sparsity ratios contribute to nearly optimal performance. For the second question, unlike finetuning unimodal sparse models, sparse VLMs involve cross-modality interactions, requiring specialized techniques for post-pruning performance repair. Moreover, while parameter-efficient LoRA finetuning has been proposed to repair the performance of sparse models, a significant challenge of weights merging arises due to the incompatibility of dense LoRA modules with sparse models that destroy the sparsity of pruned models. To tackle these challenges, we propose to Repair Sparse Vision-Language Models via Sparse Cross-modality Adaptation (RESSA). RESSA utilizes cross-modality finetuning to enhance task-specific performance and facilitate knowledge distillation from original dense models. Additionally, we introduce SparseLoRA, which applies sparsity directly to LoRA weights, enabling seamless integration with sparse models. Our experimental results validate the effectiveness of RESSA, showcasing significant enhancements, such as an 11.3\% improvement under 2:4 sparsity and a remarkable 47.6\% enhancement under unstructured 70\% sparsity.
- Abstract(参考訳): VLM(Vision-Language Models)は、複数のモダリティから多様な情報を統合することで、様々なタスクにおいて顕著な成功を収めている。
しかしながら、大規模なビジョンと言語モデルを含むVLMのデプロイは、リソース制約のあるシナリオにおいて課題となる。
プルーニングとファインタニングは、より小さなモデルサイズで性能を維持するための潜在的ソリューションを提供するが、VLMへのその応用は、比較的未探索のままであり、異なるモダリティ固有のモデルに空間を分散する方法と、刈り取ったスパースVLMの性能の修復方法の2つの主要な疑問が提示されている。
最初の質問に答えるために、我々はVLMプルーニングの予備的研究を行い、同じ空間比のプルーニングビジョンモデルと言語モデルがほぼ最適性能に寄与することを発見した。
2つ目の疑問は、微調整された単調なスパースモデルとは異なり、スパースVLMはモダリティ間の相互作用を伴い、実行後のパフォーマンス修復に特別な技術を必要とすることである。
さらに、スパースモデルの性能を改善するためにパラメータ効率の高いLoRAファインタニングが提案されているが、重み付けの重大な課題は、スパースモデルとスパースモデルとの密接なLoRAモジュールの不整合性によるものである。
これらの課題に対処するため,スパース・クロスモダリティ適応(RESSA)によるスパース・ビジョン・ランゲージ・モデルの改良を提案する。
RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。
さらに,SparseLoRAを導入し,LoRA重みに直接スパシティを適用し,スパースモデルとのシームレスな統合を実現する。
実験結果はRESSAの有効性を検証し,2:4間隔での11.3\%改善や,非構造性70\%間隔での47.6\%向上などの顕著な改善を示した。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery [42.018731237153446]
大規模言語モデル(LLM)は、人工知能の景観を変革した。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
LoRAShear は LLM のフットプリントを 20% 削減した。
論文 参考訳(メタデータ) (2023-10-24T00:47:26Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Less is More -- Towards parsimonious multi-task models using structured
sparsity [4.874780144224057]
この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。
マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
論文 参考訳(メタデータ) (2023-08-23T13:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。