論文の概要: INTERLACE: Interleaved Layer Pruning and Efficient Adaptation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.19676v1
- Date: Mon, 24 Nov 2025 20:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.150136
- Title: INTERLACE: Interleaved Layer Pruning and Efficient Adaptation in Large Vision-Language Models
- Title(参考訳): InterLACE:大規模視覚言語モデルにおけるインターリーブ層プルーニングと効率的な適応
- Authors: Parsa Madinei, Ryan Solgi, Ziqi Wen, Jonathan Skaza, Miguel Eckstein, Ramtin Pedarsani,
- Abstract要約: 我々は,サンプル効率の微調整による性能を維持しながら,VLMの冗長層を創出する新しいフレームワークであるInterLACEを紹介した。
連続する3層構造を解析し, 局所的冗長性を同定し, 残りの2層を微調整し, 残りの層を微調整し, 第三層を凍結し, 微調整時に安定なアンカーとして機能させる。
1つのエポックのためにFineVisionデータセットのわずか1%のレイヤのみを微調整することで、Interlaceはネットワークの25%を落として88.9%のパフォーマンス維持を実現し、SOTAパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 10.262304700896197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce INTERLACE, a novel framework that prunes redundant layers in VLMs while maintaining performance through sample-efficient finetuning. Existing layer pruning methods lead to significant performance drop when applied to VLMs. Instead, we analyze triplets of consecutive layers to identify local redundancy, removing the most redundant of the first two layers, finetune the remaining layer to compensate for the lost capacity, and freeze the third layer to serve as a stable anchor during finetuning. We found that this interleaved finetune-freeze design enables rapid convergence with minimal data after pruning. By finetuning only a subset of layers on just 1% of the FineVision dataset for one epoch, Interlace achieves 88.9% average performance retention after dropping 25% of the network, achieving SOTA performance. Our code is available at: https://github.com/pmadinei/Interlace.git
- Abstract(参考訳): 我々は,サンプル効率の微調整による性能を維持しながら,VLMの冗長層を創出する新しいフレームワークであるInterLACEを紹介した。
既存のレイヤプルーニング手法は、VLMに適用した場合、大幅な性能低下をもたらす。
代わりに、連続する3つの層を解析して局所的な冗長性を識別し、最初の2つの層のうち最も冗長な層を除去し、残りの層を微調整して損失容量を補償し、第3層を凍結して微調整中に安定なアンカーとして機能させる。
このインターリーブされた微細構造凍結設計は, 刈り込み後の最小データによる高速収束を可能にする。
1つのエポックのためにFineVisionデータセットのわずか1%のレイヤのみを微調整することで、Interlaceはネットワークの25%を落として88.9%のパフォーマンス維持を実現し、SOTAパフォーマンスを達成した。
私たちのコードは、https://github.com/pmadinei/Interlace.gitで利用可能です。
関連論文リスト
- Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation [43.822941944402544]
大きな言語モデルは自然言語処理タスクで優れていますが、その巨大なサイズは高い計算量とストレージ要求をもたらします。
近年の研究では, 層状プルーニングによるモデルサイズ削減が試みられている。
我々は、構造化プルーニングパラダイムを再検討し、いくつかの重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-10-17T04:27:06Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [16.84400858871298]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。