Fugu-MT 論文翻訳(概要): Learning Parameter Sharing with Tensor Decompositions and Sparsity

論文の概要: Learning Parameter Sharing with Tensor Decompositions and Sparsity

arxiv url: http://arxiv.org/abs/2411.09816v1
Date: Thu, 14 Nov 2024 21:29:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.876618
Title: Learning Parameter Sharing with Tensor Decompositions and Sparsity
Title（参考訳）: テンソル分解とスパーシリティによる学習パラメータ共有
Authors: Cem Üyük, Mike Lasby, Mohamed Yassin, Utku Evci, Yani Ioannou,
Abstract要約: 本稿では,大きな視覚変換器モデルを効率よく圧縮する新しいアルゴリズムFiPSを提案する。 FiPSは、多層知覚モジュール間の共有ニューロンを表現するために、共有基底とスパース因子を用いる。実験により、FiPSはDei-BとSwin-LTを元のパラメータの25-40%まで圧縮し、元のモデルの1パーセンテージ以内の精度を維持した。
参考スコア（独自算出の注目度）: 5.73573685846194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large neural networks achieve remarkable performance, but their size hinders deployment on resource-constrained devices. While various compression techniques exist, parameter sharing remains relatively unexplored. This paper introduces Fine-grained Parameter Sharing (FiPS), a novel algorithm that leverages the relationship between parameter sharing, tensor decomposition, and sparsity to efficiently compress large vision transformer models. FiPS employs a shared base and sparse factors to represent shared neurons across multi-layer perception (MLP) modules. Shared parameterization is initialized via Singular Value Decomposition (SVD) and optimized by minimizing block-wise reconstruction error. Experiments demonstrate that FiPS compresses DeiT-B and Swin-L MLPs to 25-40% of their original parameter count while maintaining accuracy within 1 percentage point of the original models.
Abstract（参考訳）: 大きなニューラルネットワークは目覚ましい性能を達成するが、そのサイズはリソースに制約のあるデバイスへのデプロイメントを妨げる。様々な圧縮技術が存在するが、パラメータ共有はいまだに探索されていない。本稿では, パラメータ共有, テンソル分解, スパーシティの関係を利用して, 大規模ビジョントランスフォーマーモデルを効率よく圧縮する新しいアルゴリズムFiPSを提案する。 FiPSは、多層知覚(MLP)モジュール間の共有ニューロンを表現するために、共有基底とスパース因子を用いる。共有パラメータ化はSingular Value Decomposition (SVD)を介して初期化され、ブロック単位の復元誤差を最小限にすることで最適化される。実験により、FiPS は DeiT-B と Swin-L の MLP を元のパラメータの 25-40% まで圧縮し、元のモデルの 1 パーセンテージ以内の精度を維持した。

関連論文リスト

Beyond Real Weights: Hypercomplex Representations for Stable Quantization [6.708338010963415]
マルチモーダル言語モデル(MLLM)は、高次元視覚特徴を言語表現と整合させるために、大きなパラメータ容量を必要とする。本稿では,高密度フィードフォワードネットワークブロックを徐々に置き換えることで,これらのモデルを圧縮するプログレッシブリパラメタライゼーション戦略を提案する。残留スケジュールは、軽量な再構築と知識蒸留の損失と共に、PHMモジュールが訓練中に高密度なモジュールの機能的挙動を継承することを保証する。
論文参考訳（メタデータ） (2025-12-09T12:10:57Z)
Toward Efficient Spiking Transformers: Synapse Pruning Meets Synergistic Learning-Based Compensation [5.496016535669561]
本稿では, シナプスプルーニングとシナジスティック学習に基づく補償戦略を組み合わせることで, 軽量トランスフォーマーモデルの導出を提案する。ベンチマークデータセットの実験により、提案手法は、競合性能を維持しながら、モデルサイズと計算オーバーヘッドを大幅に削減することを示した。
論文参考訳（メタデータ） (2025-08-04T02:19:38Z)
Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [54.656502058570226]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文参考訳（メタデータ） (2025-06-10T08:59:27Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。 VBMFは各層における重みテンソルのランクを推定するために用いられる。その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T06:40:34Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
FoldGPT: Simple and Effective Large Language Model Compression Scheme [5.611544096046119]
ネットワーク帯域幅とメモリ制限は、モバイルデバイスに数十億レベルのモデルをデプロイする上で問題となる。ブロック除去とブロックパラメータ共有を組み合わせたFoldGPTを提案する。実験により、FoldGPTは従来の最先端(SOTA)手法よりも効率の良いモデル圧縮性能を示した。
論文参考訳（メタデータ） (2024-07-01T03:17:53Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文参考訳（メタデータ） (2024-02-08T19:01:14Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文参考訳（メタデータ） (2022-10-08T00:36:00Z)
Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition [17.73449206184214]
本稿では,スパースゲート型エキスパートの共有によるパラメータ効率の高いコンバータを提案する。具体的には,コンバータブロックの容量を増大させることなく,スパースゲート・オブ・エグゼクティブ(MoE)を用いて,コンバータブロックの容量を拡大する。
論文参考訳（メタデータ） (2022-09-17T13:22:19Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Learning Robust and Lightweight Model through Separable Structured Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文参考訳（メタデータ） (2021-12-27T07:25:26Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
A Variational Information Bottleneck Based Method to Compress Sequential Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文参考訳（メタデータ） (2020-10-03T12:41:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。