Fugu-MT 論文翻訳(概要): RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation

論文の概要: RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation

arxiv url: http://arxiv.org/abs/2404.02424v1
Date: Wed, 3 Apr 2024 03:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 18:39:40.549444
Title: RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation
Title（参考訳）: RESSA:スパース・クロスモーダル適応によるスパース・ビジョン・ランゲージモデルの修復
Authors: Shwai He, Tianlong Chen,
Abstract要約: Sparse Cross-modality Adaptation (RESSA) によるスパース視覚言語モデルの修復を提案する。 RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。また、SparseLoRAを導入し、LoRA重みに直接スパシティを適用し、スパースモデルとのシームレスな統合を可能にする。
参考スコア（独自算出の注目度）: 38.62539028454178
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision-Language Models (VLMs), integrating diverse information from multiple modalities, have shown remarkable success across various tasks. However, deploying VLMs, comprising large-scale vision and language models poses challenges in resource-constrained scenarios. While pruning followed by finetuning offers a potential solution to maintain performance with smaller model sizes, its application to VLMs remains relatively unexplored, presenting two main questions: how to distribute sparsity across different modality-specific models, and how to repair the performance of pruned sparse VLMs. To answer the first question, we conducted preliminary studies on VLM pruning and found that pruning vision models and language models with the same sparsity ratios contribute to nearly optimal performance. For the second question, unlike finetuning unimodal sparse models, sparse VLMs involve cross-modality interactions, requiring specialized techniques for post-pruning performance repair. Moreover, while parameter-efficient LoRA finetuning has been proposed to repair the performance of sparse models, a significant challenge of weights merging arises due to the incompatibility of dense LoRA modules with sparse models that destroy the sparsity of pruned models. To tackle these challenges, we propose to Repair Sparse Vision-Language Models via Sparse Cross-modality Adaptation (RESSA). RESSA utilizes cross-modality finetuning to enhance task-specific performance and facilitate knowledge distillation from original dense models. Additionally, we introduce SparseLoRA, which applies sparsity directly to LoRA weights, enabling seamless integration with sparse models. Our experimental results validate the effectiveness of RESSA, showcasing significant enhancements, such as an 11.3\% improvement under 2:4 sparsity and a remarkable 47.6\% enhancement under unstructured 70\% sparsity.
Abstract（参考訳）: VLM(Vision-Language Models)は、複数のモダリティから多様な情報を統合することで、様々なタスクにおいて顕著な成功を収めている。しかしながら、大規模なビジョンと言語モデルを含むVLMのデプロイは、リソース制約のあるシナリオにおいて課題となる。プルーニングとファインタニングは、より小さなモデルサイズで性能を維持するための潜在的ソリューションを提供するが、VLMへのその応用は、比較的未探索のままであり、異なるモダリティ固有のモデルに空間を分散する方法と、刈り取ったスパースVLMの性能の修復方法の2つの主要な疑問が提示されている。最初の質問に答えるために、我々はVLMプルーニングの予備的研究を行い、同じ空間比のプルーニングビジョンモデルと言語モデルがほぼ最適性能に寄与することを発見した。 2つ目の疑問は、微調整された単調なスパースモデルとは異なり、スパースVLMはモダリティ間の相互作用を伴い、実行後のパフォーマンス修復に特別な技術を必要とすることである。さらに、スパースモデルの性能を改善するためにパラメータ効率の高いLoRAファインタニングが提案されているが、重み付けの重大な課題は、スパースモデルとスパースモデルとの密接なLoRAモジュールの不整合性によるものである。これらの課題に対処するため,スパース・クロスモダリティ適応(RESSA)によるスパース・ビジョン・ランゲージ・モデルの改良を提案する。 RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。さらに,SparseLoRAを導入し,LoRA重みに直接スパシティを適用し,スパースモデルとのシームレスな統合を実現する。実験結果はRESSAの有効性を検証し,2:4間隔での11.3\%改善や,非構造性70\%間隔での47.6\%向上などの顕著な改善を示した。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。 SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文参考訳（メタデータ） (2025-05-29T22:17:43Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
LoRA-GGPO: Mitigating Double Descent in LoRA Fine-Tuning via Gradient-Guided Perturbation Optimization [12.504723188498]
大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。 Low-Rank Adaptation (LoRA)は、パラメータ更新を低ランク行列で近似することで、実用的なソリューションとして登場した。 LoRA-GGPOは、勾配とウェイトノルムを利用して標的摂動を生成する新しい手法である。
論文参考訳（メタデータ） (2025-02-20T13:14:41Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Investigating Training Strategies and Model Robustness of Low-Rank Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。 LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文参考訳（メタデータ） (2024-01-19T01:30:16Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery [42.018731237153446]
大規模言語モデル(LLM)は、人工知能の景観を変革した。 LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。 LoRAShear は LLM のフットプリントを 20% 削減した。
論文参考訳（メタデータ） (2023-10-24T00:47:26Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Less is More -- Towards parsimonious multi-task models using structured sparsity [4.874780144224057]
この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
論文参考訳（メタデータ） (2023-08-23T13:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。