論文の概要: Improving NER's Performance with Massive financial corpus
- arxiv url: http://arxiv.org/abs/2007.15871v1
- Date: Fri, 31 Jul 2020 07:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 05:55:31.594846
- Title: Improving NER's Performance with Massive financial corpus
- Title(参考訳): 大規模金融コーパスによるNERの性能向上
- Authors: Han Zhang
- Abstract要約: 大規模なディープニューラルネットワークのトレーニングには、大量の高品質なアノテーションデータが必要だが、その時間と労働コストは、小規模ビジネスには高すぎる。
企業名の認識タスクを,小規模かつ低品質なトレーニングデータを用いて開始し,モデルトレーニング速度の向上と最低労働コストによるパフォーマンスの予測を行う。
- 参考スコア(独自算出の注目度): 6.935911489364734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large deep neural networks needs massive high quality annotation
data, but the time and labor costs are too expensive for small business. We
start a company-name recognition task with a small scale and low quality
training data, then using skills to enhanced model training speed and
predicting performance with minimum labor cost. The methods we use involve
pre-training a lite language model such as Albert-small or Electra-small in
financial corpus, knowledge of distillation and multi-stage learning. The
result is that we raised the recall rate by nearly 20 points and get 4 times as
fast as BERT-CRF model.
- Abstract(参考訳): 大きなディープニューラルネットワークのトレーニングには大量の高品質なアノテーションデータが必要ですが、時間と労力のコストは中小企業には高すぎるのです。
企業名の認識タスクを,小規模かつ低品質なトレーニングデータを用いて開始し,モデルトレーニング速度の向上と最低労働コストによるパフォーマンスの予測を行う。
本手法は,Albert-small や Electra-small といったエリート言語モデルの事前学習,蒸留の知識,多段階学習を含む。
その結果,リコール率を20ポイント近く引き上げ,BERT-CRFモデルの4倍速くなることがわかった。
関連論文リスト
- AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。
このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。
我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-08-13T02:07:00Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Efficient and Private Federated Learning with Partially Trainable
Networks [8.813191488656527]
我々は、トレーニングプロセス全体において、モデルパラメータの一部を凍結する部分トレーニング可能なニューラルネットワークを活用することを提案する。
FedPT(Partially Trainable Neural Network)のフェデレート学習が,通信精度のトレードオフに優れた結果をもたらすことを実証的に示す。
このアプローチでは、より高速なトレーニング、メモリフットプリントの削減、強力な差分プライバシー保証のためのユーティリティも実現しています。
論文 参考訳(メタデータ) (2021-10-06T04:28:33Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Sparsifying Transformer Models with Trainable Representation Pooling [5.575448433529451]
本稿では,トランスフォーマーモデルにおいて,トレーニングプロセス中に最も表現力の高いトークン表現を選択することを学習することで注意を分散させる新しい手法を提案する。
2次時間とメモリの複雑さを減らしたのは、堅牢なトレーニング可能なトップ$k$演算子によって達成された。
論文 参考訳(メタデータ) (2020-09-10T22:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。