論文の概要: Large-Scale News Classification using BERT Language Model: Spark NLP
Approach
- arxiv url: http://arxiv.org/abs/2107.06785v1
- Date: Wed, 14 Jul 2021 15:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 17:29:42.853762
- Title: Large-Scale News Classification using BERT Language Model: Spark NLP
Approach
- Title(参考訳): BERT言語モデルを用いた大規模ニュース分類:Spark NLPアプローチ
- Authors: Kuncahyo Setyo Nugroho, Kuncahyo Setyo Nugroho, Novanto Yudistira
- Abstract要約: MapReduceは大規模計算の並列化を可能にし、テキスト処理の効率を向上させることができる。
我々は、事前訓練されたモデルを用いて、細調整されたBERTを用いて、ニューストピックの大きなテキストを分類する。
BERTを用いた全てのモデルの精度平均とトレーニング時間は0.9187と35分であり、Spark NLPパイプラインを使用したBERTは0.8444と9分である。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of big data analytics on top of NLP increases the computational
burden for text processing at scale. The problems faced in NLP are very high
dimensional text, so it takes a high computation resource. The MapReduce allows
parallelization of large computations and can improve the efficiency of text
processing. This research aims to study the effect of big data processing on
NLP tasks based on a deep learning approach. We classify a big text of news
topics with fine-tuning BERT used pre-trained models. Five pre-trained models
with a different number of parameters were used in this study. To measure the
efficiency of this method, we compared the performance of the BERT with the
pipelines from Spark NLP. The result shows that BERT without Spark NLP gives
higher accuracy compared to BERT with Spark NLP. The accuracy average and
training time of all models using BERT is 0.9187 and 35 minutes while using
BERT with Spark NLP pipeline is 0.8444 and 9 minutes. The bigger model will
take more computation resources and need a longer time to complete the tasks.
However, the accuracy of BERT with Spark NLP only decreased by an average of
5.7%, while the training time was reduced significantly by 62.9% compared to
BERT without Spark NLP.
- Abstract(参考訳): NLP上のビッグデータ分析の台頭は、大規模にテキスト処理を行う際の計算負担を増大させる。
NLPで直面する問題は高次元テキストであり、高い計算資源を必要とする。
MapReduceは大規模計算の並列化を可能にし、テキスト処理の効率を向上させる。
本研究の目的は,ビッグデータ処理がNLPタスクに与える影響をディープラーニングアプローチに基づいて検討することである。
我々は、事前訓練されたモデルを用いた細調整BERTを用いて、ニューストピックの大きなテキストを分類する。
本研究では,パラメータの異なる5つの事前学習モデルを用いた。
本手法の効率性を評価するため, BERTとSpark NLPのパイプラインの性能を比較した。
その結果, Spark NLP の BERT は Spark NLP の BERT よりも精度が高いことがわかった。
BERTを用いた全てのモデルの精度平均とトレーニング時間は0.9187と35分であり、Spark NLPパイプラインを使用したBERTは0.8444と9分である。
より大きなモデルはより多くの計算リソースを必要とし、タスクを完了するのに長い時間がかかるでしょう。
しかし、Spark NLPのBERTの精度は平均5.7%しか低下せず、トレーニング時間はSpark NLPのBERTに比べて62.9%低下した。
関連論文リスト
- Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - PyTAIL: Interactive and Incremental Learning of NLP Models with Human in
the Loop for Online Data [1.576409420083207]
PyTAILは、人間のループアプローチでNLPモデルを積極的に訓練できるピソンライブラリである。
テキスト分類のための既存のソーシャルメディアベンチマークデータセット上でのPyTAILの性能をシミュレートする。
論文 参考訳(メタデータ) (2022-11-24T20:08:15Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Spark NLP: Natural Language Understanding at Scale [0.0]
Spark NLPは、Apache Spark ML上に構築された自然言語処理(NLP)ライブラリである。
マシンラーニングパイプラインに、シンプルで高性能で正確なNLPアノテーションを提供します。
クラスタ内でシームレスに使用できるほぼすべてのNLPタスクとモジュールをサポートしています。
論文 参考訳(メタデータ) (2021-01-26T15:11:52Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。