論文の概要: Strategic Fusion Optimizes Transformer Compression
- arxiv url: http://arxiv.org/abs/2501.03273v1
- Date: Sun, 05 Jan 2025 04:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:58.259001
- Title: Strategic Fusion Optimizes Transformer Compression
- Title(参考訳): 変圧器圧縮を最適化する戦略核融合
- Authors: Md Shoaibur Rahman,
- Abstract要約: 本研究では, 層を体系的に刈り取ることにより, 変圧器モデル圧縮について検討する。
層活性化, 相互情報, 勾配, 重み, 注意などの異なる信号から得られる12の戦略を含む, 9つの多様なデータセットにわたる14のプルーニング戦略を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates transformer model compression by systematically pruning its layers. We evaluated 14 pruning strategies across nine diverse datasets, including 12 strategies based on different signals obtained from layer activations, mutual information, gradients, weights, and attention. To address the limitations of single-signal strategies, we introduced two fusion strategies, linear regression and random forest, which combine individual strategies (i.e., strategic fusion), for more informed pruning decisions. Additionally, we applied knowledge distillation to mitigate any accuracy loss during layer pruning. Our results reveal that random forest strategic fusion outperforms individual strategies in seven out of nine datasets and achieves near-optimal performance in the other two. The distilled random forest surpasses the original accuracy in six datasets and mitigates accuracy drops in the remaining three. Knowledge distillation also improves the accuracy-to-size ratio by an average factor of 18.84 across all datasets. Supported by mathematical foundations and biological analogies, our findings suggest that strategically combining multiple signals can lead to efficient, high-performing transformer models for resource-constrained applications.
- Abstract(参考訳): 本研究では, 層を体系的に刈り取ることにより, 変圧器モデル圧縮について検討する。
層活性化, 相互情報, 勾配, 重み, 注意などの異なる信号から得られる12の戦略を含む, 9つの多様なデータセットにわたる14のプルーニング戦略を評価した。
単一信号戦略の限界に対処するため,我々は,個別の戦略(戦略融合)を組み合わせた2つの融合戦略,すなわち線形回帰とランダム森林を導入した。
さらに, プレニング時の精度損失を軽減するため, 知識蒸留を適用した。
その結果、ランダムな森林戦略融合は、9つのデータセットのうち7つにおいて個々の戦略よりも優れており、他の2つではほぼ最適であることがわかった。
蒸留されたランダム林は6つのデータセットで元の精度を超え、残りの3つのデータセットでは精度低下を緩和する。
知識蒸留は全てのデータセットの平均18.84倍の精度とサイズ比も改善する。
数学的基礎と生物学的類推により, 戦略的に複数の信号を組み合わせることにより, 資源制約されたアプリケーションに対して, 効率的かつ高性能なトランスフォーマーモデルを実現することが示唆された。
関連論文リスト
- Layer Pruning with Consensus: A Triple-Win Solution [0.0]
レイヤ・プルーニングのアプローチは、しばしば、レイヤの複雑な基盤となる特性を完全に捉えない単一の基準に依存します。
本稿では,複数の類似度指標を,コンセンサス基準(Consensus criterion)と呼ばれる低重要層の単一の表現尺度に組み合わせた新しい手法を提案する。
本手法は,低精度低下,高性能化,敵攻撃に対するロバスト性の向上という3つの解を提供する。
論文 参考訳(メタデータ) (2024-11-21T17:41:27Z) - Efficient learning of differential network in multi-source non-paranormal graphical models [2.5905193932831585]
本稿では,2種類の非正規グラフィカルモデル間のスパース構造変化や差分ネットワークの学習に対処する。
複数の情報源からのデータセットを組み合わせるという我々の戦略は、実世界の問題における差分ネットワークの推測に非常に効果的であることが示されている。
論文 参考訳(メタデータ) (2024-10-03T13:59:38Z) - Exploring Selective Layer Fine-Tuning in Federated Learning [48.470385357429215]
フェデレートラーニング(FL)は,分散データを用いた基礎モデルの微調整のための,有望なパラダイムとして登場した。
FLにおける選択的層微調整について検討し、クライアントがローカルデータやリソースに応じて選択した層を調整できるフレキシブルなアプローチを強調した。
論文 参考訳(メタデータ) (2024-08-28T07:48:39Z) - LayerMatch: Do Pseudo-labels Benefit All Layers? [77.59625180366115]
半教師付き学習はラベル付きデータの依存性を軽減するための有望なソリューションを提供する。
我々はGrad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。
提案手法は,標準的な半教師付き学習ベンチマークにおいて,例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:50Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Enhancing Privacy against Inversion Attacks in Federated Learning by
using Mixing Gradients Strategies [0.31498833540989407]
フェデレーション学習は情報漏洩のリスクを低減するが、攻撃に対して脆弱である。
いくつかのニューラルネットワーク設計決定が、勾配逆攻撃に対してどのように防御できるかを示す。
これらの戦略は、画像認識のためのLeNETのような深層畳み込みニューラルネットワークにも有用である。
論文 参考訳(メタデータ) (2022-04-26T12:08:28Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z) - Classification of Hyperspectral and LiDAR Data Using Coupled CNNs [39.55503477017984]
本稿では,2つの結合畳み込みニューラルネットワーク(CNN)を用いた高スペクトル・光検出・追跡(LiDAR)データを融合する効率的なフレームワークを提案する。
1つのCNNは、ハイパースペクトルデータからスペクトル空間の特徴を学習するために設計され、もう1つは、LiDARデータから標高情報を取得するために使用される。
融合相では、これらの不均一な特徴を統合するために、特徴レベルと決定レベルの融合法が同時に使用される。
論文 参考訳(メタデータ) (2020-02-04T06:23:36Z) - An empirical evaluation of imbalanced data strategies from a
practitioner's point of view [1.9580473532948401]
本稿では, オーバーサンプリング, アンサンブル, アンサンブル法, 特殊アルゴリズム, クラス重み調整, 無緩和アプローチの6つの手法について検討する。
これらの戦略は、58個の実生活のバイナリ不均衡データセットでテストされ、不均衡率は3から120である。
論文 参考訳(メタデータ) (2018-10-16T17:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。