論文の概要: Green CWS: Extreme Distillation and Efficient Decode Method Towards
Industrial Application
- arxiv url: http://arxiv.org/abs/2111.09078v1
- Date: Wed, 17 Nov 2021 12:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:45:22.333537
- Title: Green CWS: Extreme Distillation and Efficient Decode Method Towards
Industrial Application
- Title(参考訳): グリーンCWS:極端蒸留法と産業応用に向けた効率的な復号法
- Authors: Yulan Hu, Yong Liu
- Abstract要約: 本研究は,軽量モデルと改良復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。
実験の結果、我々の研究は、複数のデータセット上で14%の時間消費で比較的高いパフォーマンスが得られることがわかった。
- 参考スコア(独自算出の注目度): 7.33244617309908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from the strong ability of the pre-trained model, the research on
Chinese Word Segmentation (CWS) has made great progress in recent years.
However, due to massive computation, large and complex models are incapable of
empowering their ability for industrial use. On the other hand, for
low-resource scenarios, the prevalent decode method, such as Conditional Random
Field (CRF), fails to exploit the full information of the training data. This
work proposes a fast and accurate CWS framework that incorporates a
light-weighted model and an upgraded decode method (PCRF) towards industrially
low-resource CWS scenarios. First, we distill a Transformer-based student model
as an encoder, which not only accelerates the inference speed but also combines
open knowledge and domain-specific knowledge. Second, the perplexity score to
evaluate the language model is fused into the CRF module to better identify the
word boundaries. Experiments show that our work obtains relatively high
performance on multiple datasets with as low as 14\% of time consumption
compared with the original BERT-based model. Moreover, under the low-resource
setting, we get superior results in comparison with the traditional decoding
methods.
- Abstract(参考訳): 事前学習されたモデルの強力な能力から、中国語単語分割(cws)の研究は近年大きな進展を遂げている。
しかし、計算量が大きいため、大規模で複雑なモデルでは、産業利用に力を与えることができない。
一方、低リソースシナリオでは、条件付きランダムフィールド(CRF)のような一般的なデコード方式では、トレーニングデータの完全な情報を利用することができない。
本研究は,工業的に低リソースなCWSシナリオに対して,軽量モデルと改良された復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。
まず、トランスフォーマーベースの学生モデルをエンコーダとして蒸留し、推論速度を加速するだけでなく、オープン知識とドメイン固有知識を組み合わせる。
第二に、言語モデルを評価する難易度スコアをCRFモジュールに融合させ、単語境界をよりよく識別する。
実験の結果,従来のbertベースのモデルと比較して,複数のデータセットにおいて,14\%の時間消費で比較的高い性能が得られることがわかった。
また,低リソース環境下では,従来の復号法と比較して優れた結果が得られる。
関連論文リスト
- MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。
10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-20T03:01:41Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable
Transfer from Black-Box to Lightweight Segmentation Model [25.3403116022412]
CoRTeは、ブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベリング関数である。
我々は,2つの合成から現実の環境でCoRTeをベンチマークし,ブラックボックスモデルを用いて目標データ分布の軽量モデルにおける知識を伝達する際,顕著な結果を示した。
論文 参考訳(メタデータ) (2024-02-20T16:35:14Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。