論文の概要: Green CWS: Extreme Distillation and Efficient Decode Method Towards
Industrial Application
- arxiv url: http://arxiv.org/abs/2111.09078v1
- Date: Wed, 17 Nov 2021 12:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:45:22.333537
- Title: Green CWS: Extreme Distillation and Efficient Decode Method Towards
Industrial Application
- Title(参考訳): グリーンCWS:極端蒸留法と産業応用に向けた効率的な復号法
- Authors: Yulan Hu, Yong Liu
- Abstract要約: 本研究は,軽量モデルと改良復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。
実験の結果、我々の研究は、複数のデータセット上で14%の時間消費で比較的高いパフォーマンスが得られることがわかった。
- 参考スコア(独自算出の注目度): 7.33244617309908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from the strong ability of the pre-trained model, the research on
Chinese Word Segmentation (CWS) has made great progress in recent years.
However, due to massive computation, large and complex models are incapable of
empowering their ability for industrial use. On the other hand, for
low-resource scenarios, the prevalent decode method, such as Conditional Random
Field (CRF), fails to exploit the full information of the training data. This
work proposes a fast and accurate CWS framework that incorporates a
light-weighted model and an upgraded decode method (PCRF) towards industrially
low-resource CWS scenarios. First, we distill a Transformer-based student model
as an encoder, which not only accelerates the inference speed but also combines
open knowledge and domain-specific knowledge. Second, the perplexity score to
evaluate the language model is fused into the CRF module to better identify the
word boundaries. Experiments show that our work obtains relatively high
performance on multiple datasets with as low as 14\% of time consumption
compared with the original BERT-based model. Moreover, under the low-resource
setting, we get superior results in comparison with the traditional decoding
methods.
- Abstract(参考訳): 事前学習されたモデルの強力な能力から、中国語単語分割(cws)の研究は近年大きな進展を遂げている。
しかし、計算量が大きいため、大規模で複雑なモデルでは、産業利用に力を与えることができない。
一方、低リソースシナリオでは、条件付きランダムフィールド(CRF)のような一般的なデコード方式では、トレーニングデータの完全な情報を利用することができない。
本研究は,工業的に低リソースなCWSシナリオに対して,軽量モデルと改良された復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。
まず、トランスフォーマーベースの学生モデルをエンコーダとして蒸留し、推論速度を加速するだけでなく、オープン知識とドメイン固有知識を組み合わせる。
第二に、言語モデルを評価する難易度スコアをCRFモジュールに融合させ、単語境界をよりよく識別する。
実験の結果,従来のbertベースのモデルと比較して,複数のデータセットにおいて,14\%の時間消費で比較的高い性能が得られることがわかった。
また,低リソース環境下では,従来の復号法と比較して優れた結果が得られる。
関連論文リスト
- Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable
Transfer from Black-Box to Lightweight Segmentation Model [25.3403116022412]
CoRTeは、ブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベリング関数である。
我々は,2つの合成から現実の環境でCoRTeをベンチマークし,ブラックボックスモデルを用いて目標データ分布の軽量モデルにおける知識を伝達する際,顕著な結果を示した。
論文 参考訳(メタデータ) (2024-02-20T16:35:14Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - A Comparative Study of Pre-trained Encoders for Low-Resource Named
Entity Recognition [10.0731894715001]
我々は、エンコーダ評価フレームワークを導入し、それを用いて、低リソースNERのタスクにおける最先端の事前訓練された表現の性能を比較する。
我々は、様々な戦略、モデルアーキテクチャ、中間タスクの微調整、コントラスト学習で事前訓練された幅広いエンコーダを分析する。
論文 参考訳(メタデータ) (2022-04-11T09:48:26Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。