Fugu-MT 論文翻訳(概要): On Importance of Pruning and Distillation for Efficient Low Resource NLP

論文の概要: On Importance of Pruning and Distillation for Efficient Low Resource NLP

arxiv url: http://arxiv.org/abs/2409.14162v1
Date: Sat, 21 Sep 2024 14:58:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:22:11.970705
Title: On Importance of Pruning and Distillation for Efficient Low Resource NLP
Title（参考訳）: 低資源高効率NLPにおけるプルーニングと蒸留の重要性について
Authors: Aishwarya Mirashi, Purva Lingayat, Srushti Sonavane, Tejas Padhiyar, Raviraj Joshi, Geetanjali Kale,
Abstract要約: 大規模なトランスフォーマーモデルは自然言語処理に革命をもたらし、テキスト分類などのタスクが大幅に進歩した。英語モデルの小型化と高速化が試みられているが、この領域の研究は低リソース言語では不十分である。本研究では,低リソース・トピック・オール・docv2モデルをベースラインとして,計算時間とメモリ使用量を削減する最適化手法を提案する。
参考スコア（独自算出の注目度）: 0.3958317527488535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of large transformer models has revolutionized Natural Language Processing, leading to significant advances in tasks like text classification. However, this progress demands substantial computational resources, escalating training duration, and expenses with larger model sizes. Efforts have been made to downsize and accelerate English models (e.g., Distilbert, MobileBert). Yet, research in this area is scarce for low-resource languages. In this study, we explore the case of the low-resource Indic language Marathi. Leveraging the marathi-topic-all-doc-v2 model as our baseline, we implement optimization techniques to reduce computation time and memory usage. Our focus is on enhancing the efficiency of Marathi transformer models while maintaining top-tier accuracy and reducing computational demands. Using the MahaNews document classification dataset and the marathi-topic-all-doc-v2 model from L3Cube, we apply Block Movement Pruning, Knowledge Distillation, and Mixed Precision methods individually and in combination to boost efficiency. We demonstrate the importance of strategic pruning levels in achieving desired efficiency gains. Furthermore, we analyze the balance between efficiency improvements and environmental impact, highlighting how optimized model architectures can contribute to a more sustainable computational ecosystem. Implementing these techniques on a single GPU system, we determine that the optimal configuration is 25\% pruning + knowledge distillation. This approach yielded a 2.56x speedup in computation time while maintaining baseline accuracy levels.
Abstract（参考訳）: 大きなトランスフォーマーモデルの台頭は自然言語処理に革命をもたらし、テキスト分類のようなタスクが大幅に進歩した。しかし、この進歩にはかなりの計算資源、訓練期間のエスカレート、より大きなモデルサイズでの費用が要求される。英語モデルの縮小と高速化(例: Distilbert、MobileBert)が試みられている。しかし、この分野での研究は低リソース言語では不十分である。本研究では,低リソースのインド語であるMarathiについて検討する。マルチトピ-オール-doc-v2モデルをベースラインとして,計算時間とメモリ使用量を削減する最適化手法を実装した。我々の焦点は、最上位の精度を維持し、計算要求を低減しつつ、マラソン変換モデルの効率を向上させることである。 L3CubeのMahaNews文書分類データセットとMarathi-topic-all-doc-v2モデルを用いて,Block Movement Pruning,Knowledge Distillation,Mixed Precision法を個別に適用し,効率を向上させる。所望の効率向上を達成する上で,戦略的なプルーニングレベルの重要性を実証する。さらに、効率改善と環境影響のバランスを分析し、最適化されたモデルアーキテクチャがより持続可能な計算エコシステムにどのように貢献するかを明らかにする。これらの手法を1つのGPUシステムに実装し、最適構成が25\%のプルーニング+知識蒸留であると判定する。このアプローチは、ベースライン精度を保ちながら計算時間の2.56倍の高速化を実現した。

関連論文リスト

Reservoir Computing as a Language Model [0.0]
大規模言語モデル(LLM)は、大量のデータを処理する上での優れたパフォーマンスに対して、科学とメディアのランドスケープデュオを支配してきた。高速かつ省エネなハードウェア実装を実現するため,自然テキスト処理における貯水池の計算性能について検討する。
論文参考訳（メタデータ） (2025-07-21T16:35:38Z)
FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation [34.045199714747596]
FlowRAMは、生成モデルを利用して地域認識を実現する新しいフレームワークである。 FlowRAMは4段階未満のステップで、さまざまな現実世界のタスクに対して物理的に妥当なアクションを生成することができる。
論文参考訳（メタデータ） (2025-06-19T10:30:02Z)
TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
Automated Tomato Maturity Estimation Using an Optimized Residual Model with Pruning and Quantization Techniques [1.123910458133809]
トマトの成熟度は収穫時期の最適化と品質確保に重要な役割を果たしている。既存のディープラーニングのアプローチは正確ではあるが、資源に制約のある農業環境での実践には計算的すぎることがしばしばある。本研究では,移動学習,プルーニング,量子化技術によって最適化されたResNet-18アーキテクチャを用いて,計算効率の良いトマト分類モデルを構築することを目的とする。
論文参考訳（メタデータ） (2025-03-13T22:56:19Z)
Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment [3.6219999155937113]
本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処するためのTransformer$-1$アーキテクチャを提案する。ベンチマークテストでは,標準的なTransformerと比較してFLOPを42.7%削減し,ピークメモリ使用率を3%削減した。また,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。
論文参考訳（メタデータ） (2025-01-26T15:31:45Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation [4.77407121905745]
バックプロパゲーション(BP)は、ディープラーニングモデルをトレーニングする際の計算コストの主要な源泉である。ディープラーニングアーキテクチャにシームレスに統合できる汎用的でエネルギー効率の良い畳み込みモジュールを提案する。
論文参考訳（メタデータ） (2024-08-22T17:22:59Z)
Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文参考訳（メタデータ） (2024-06-13T05:49:29Z)
REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。 CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文参考訳（メタデータ） (2024-06-07T09:17:33Z)
The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection [18.683805940232485]
再重み付けにコアサブセット選択を用いる新しい手法を提案する。戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。再校正された重みは、データセット全体に対してマッピングされ、伝播される。
論文参考訳（メタデータ） (2024-03-18T18:30:22Z)
Reinforcement Learning as a Parsimonious Alternative to Prediction Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文参考訳（メタデータ） (2024-02-19T01:17:52Z)
Local Masking Meets Progressive Freezing: Crafting Efficient Vision Transformers for Self-Supervised Learning [0.0]
視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
論文参考訳（メタデータ） (2023-12-02T11:10:09Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文参考訳（メタデータ） (2022-04-25T10:00:00Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。