論文の概要: On Importance of Pruning and Distillation for Efficient Low Resource NLP
- arxiv url: http://arxiv.org/abs/2409.14162v1
- Date: Sat, 21 Sep 2024 14:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:22:11.970705
- Title: On Importance of Pruning and Distillation for Efficient Low Resource NLP
- Title(参考訳): 低資源高効率NLPにおけるプルーニングと蒸留の重要性について
- Authors: Aishwarya Mirashi, Purva Lingayat, Srushti Sonavane, Tejas Padhiyar, Raviraj Joshi, Geetanjali Kale,
- Abstract要約: 大規模なトランスフォーマーモデルは自然言語処理に革命をもたらし、テキスト分類などのタスクが大幅に進歩した。
英語モデルの小型化と高速化が試みられているが、この領域の研究は低リソース言語では不十分である。
本研究では,低リソース・トピック・オール・docv2モデルをベースラインとして,計算時間とメモリ使用量を削減する最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.3958317527488535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large transformer models has revolutionized Natural Language Processing, leading to significant advances in tasks like text classification. However, this progress demands substantial computational resources, escalating training duration, and expenses with larger model sizes. Efforts have been made to downsize and accelerate English models (e.g., Distilbert, MobileBert). Yet, research in this area is scarce for low-resource languages. In this study, we explore the case of the low-resource Indic language Marathi. Leveraging the marathi-topic-all-doc-v2 model as our baseline, we implement optimization techniques to reduce computation time and memory usage. Our focus is on enhancing the efficiency of Marathi transformer models while maintaining top-tier accuracy and reducing computational demands. Using the MahaNews document classification dataset and the marathi-topic-all-doc-v2 model from L3Cube, we apply Block Movement Pruning, Knowledge Distillation, and Mixed Precision methods individually and in combination to boost efficiency. We demonstrate the importance of strategic pruning levels in achieving desired efficiency gains. Furthermore, we analyze the balance between efficiency improvements and environmental impact, highlighting how optimized model architectures can contribute to a more sustainable computational ecosystem. Implementing these techniques on a single GPU system, we determine that the optimal configuration is 25\% pruning + knowledge distillation. This approach yielded a 2.56x speedup in computation time while maintaining baseline accuracy levels.
- Abstract(参考訳): 大きなトランスフォーマーモデルの台頭は自然言語処理に革命をもたらし、テキスト分類のようなタスクが大幅に進歩した。
しかし、この進歩にはかなりの計算資源、訓練期間のエスカレート、より大きなモデルサイズでの費用が要求される。
英語モデルの縮小と高速化(例: Distilbert、MobileBert)が試みられている。
しかし、この分野での研究は低リソース言語では不十分である。
本研究では,低リソースのインド語であるMarathiについて検討する。
マルチトピ-オール-doc-v2モデルをベースラインとして,計算時間とメモリ使用量を削減する最適化手法を実装した。
我々の焦点は、最上位の精度を維持し、計算要求を低減しつつ、マラソン変換モデルの効率を向上させることである。
L3CubeのMahaNews文書分類データセットとMarathi-topic-all-doc-v2モデルを用いて,Block Movement Pruning,Knowledge Distillation,Mixed Precision法を個別に適用し,効率を向上させる。
所望の効率向上を達成する上で,戦略的なプルーニングレベルの重要性を実証する。
さらに、効率改善と環境影響のバランスを分析し、最適化されたモデルアーキテクチャがより持続可能な計算エコシステムにどのように貢献するかを明らかにする。
これらの手法を1つのGPUシステムに実装し、最適構成が25\%のプルーニング+知識蒸留であると判定する。
このアプローチは、ベースライン精度を保ちながら計算時間の2.56倍の高速化を実現した。
関連論文リスト
- ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation [4.77407121905745]
バックプロパゲーション(BP)は、ディープラーニングモデルをトレーニングする際の計算コストの主要な源泉である。
ディープラーニングアーキテクチャにシームレスに統合できる汎用的でエネルギー効率の良い畳み込みモジュールを提案する。
論文 参考訳(メタデータ) (2024-08-22T17:22:59Z) - Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。
本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。
本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文 参考訳(メタデータ) (2024-06-13T05:49:29Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection [18.683805940232485]
再重み付けにコアサブセット選択を用いる新しい手法を提案する。
戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。
再校正された重みは、データセット全体に対してマッピングされ、伝播される。
論文 参考訳(メタデータ) (2024-03-18T18:30:22Z) - Reinforcement Learning as a Parsimonious Alternative to Prediction
Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。
ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。
コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文 参考訳(メタデータ) (2024-02-19T01:17:52Z) - Local Masking Meets Progressive Freezing: Crafting Efficient Vision
Transformers for Self-Supervised Learning [0.0]
視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。
本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。
提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
論文 参考訳(メタデータ) (2023-12-02T11:10:09Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。