論文の概要: On Importance of Layer Pruning for Smaller BERT Models and Low Resource Languages
- arxiv url: http://arxiv.org/abs/2501.00733v1
- Date: Wed, 01 Jan 2025 05:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:31.978308
- Title: On Importance of Layer Pruning for Smaller BERT Models and Low Resource Languages
- Title(参考訳): 小型BERTモデルと低資源言語におけるレイヤープルーニングの重要性について
- Authors: Mayur Shirke, Amey Shembade, Madhushri Wagh, Pavan Thorat, Raviraj Joshi,
- Abstract要約: 本研究では,低リソース言語における特定の下流タスクに適したBERTモデルの開発において,レイヤプルーニングの有効性について検討する。
MahaBERT-v2 や Google-Muril などいくつかの BERT 変種を実験し、異なるプルーニング戦略を適用し、その性能を MahaBERT-Small や MahaBERT-Smaller のような小さなスクラッチトレーニングモデルと比較した。
以上の結果から,プルーニングモデルでは,層数が少ないにもかかわらず,スクラッチトレーニングモデルと同等の性能を保ちながら,スクラッチトレーニングモデルと同等の性能を保っていることがわかった。
- 参考スコア(独自算出の注目度): 0.4194295877935868
- License:
- Abstract: This study explores the effectiveness of layer pruning for developing more efficient BERT models tailored to specific downstream tasks in low-resource languages. Our primary objective is to evaluate whether pruned BERT models can maintain high performance while reducing model size and complexity. We experiment with several BERT variants, including MahaBERT-v2 and Google-Muril, applying different pruning strategies and comparing their performance to smaller, scratch-trained models like MahaBERT-Small and MahaBERT-Smaller. We fine-tune these models on Marathi datasets, specifically Short Headlines Classification (SHC), Long Paragraph Classification (LPC) and Long Document Classification (LDC), to assess their classification accuracy. Our findings demonstrate that pruned models, despite having fewer layers, achieve comparable performance to their fully-layered counterparts while consistently outperforming scratch-trained models of similar size. Notably, pruning layers from the middle of the model proves to be the most effective strategy, offering performance competitive with pruning from the top and bottom. However, there is no clear winner, as different pruning strategies perform better in different model and dataset combinations. Additionally, monolingual BERT models outperform multilingual ones in these experiments. This approach, which reduces computational demands, provides a faster and more efficient alternative to training smaller models from scratch, making advanced NLP models more accessible for low-resource languages without compromising classification accuracy.
- Abstract(参考訳): 本研究では,低リソース言語における特定の下流タスクに適した,より効率的なBERTモデル構築のためのレイヤプルーニングの有効性について検討する。
我々の主な目的は、モデルのサイズと複雑さを減らしながら高い性能を維持することができるかを評価することである。
MahaBERT-v2 や Google-Muril などいくつかの BERT 変種を実験し、異なるプルーニング戦略を適用し、その性能を MahaBERT-Small や MahaBERT-Smaller のような小さなスクラッチトレーニングモデルと比較した。
我々はこれらのモデルをマラチデータセット、特にショートヘッドライン分類(SHC)、ロングパラグラフ分類(LPC)、ロングドキュメント分類(LDC)で微調整し、それらの分類精度を評価する。
以上の結果から,プルーニングモデルでは,層数が少ないにもかかわらず,スクラッチトレーニングモデルと同等の性能を保ちながら,スクラッチトレーニングモデルと同等の性能を保っていることがわかった。
特に、モデルの中央からのプルーニングレイヤは最も効果的な戦略であり、上から下からプルーニングするのと競合するパフォーマンスを提供する。
しかし、異なるプルーニング戦略が異なるモデルとデータセットの組み合わせでより良いパフォーマンスを発揮するため、明確な勝者は存在しない。
さらに、これらの実験において単言語BERTモデルは多言語モデルよりも優れている。
このアプローチは、計算要求を減らし、より小さなモデルをスクラッチから訓練するより高速で効率的な代替手段を提供し、高度なNLPモデルを分類精度を損なうことなく、低リソース言語でよりアクセスしやすくする。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Towards Building Efficient Sentence BERT Models using Layer Pruning [0.4915744683251151]
本研究では,SBERT(Sentence BERT)モデル作成におけるレイヤプルーニングの有効性について検討した。
我々のゴールは、強い埋め込み類似性を保ちながら複雑さを減らし、より小さな文埋め込みモデルを作ることです。
論文 参考訳(メタデータ) (2024-09-21T15:10:06Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。