Fugu-MT 論文翻訳(概要): Green CWS: Extreme Distillation and Efficient Decode Method Towards Industrial Application

論文の概要: Green CWS: Extreme Distillation and Efficient Decode Method Towards Industrial Application

arxiv url: http://arxiv.org/abs/2111.09078v1
Date: Wed, 17 Nov 2021 12:45:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-18 14:45:22.333537
Title: Green CWS: Extreme Distillation and Efficient Decode Method Towards Industrial Application
Title（参考訳）: グリーンCWS:極端蒸留法と産業応用に向けた効率的な復号法
Authors: Yulan Hu, Yong Liu
Abstract要約: 本研究は,軽量モデルと改良復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。実験の結果、我々の研究は、複数のデータセット上で14%の時間消費で比較的高いパフォーマンスが得られることがわかった。
参考スコア（独自算出の注目度）: 7.33244617309908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benefiting from the strong ability of the pre-trained model, the research on Chinese Word Segmentation (CWS) has made great progress in recent years. However, due to massive computation, large and complex models are incapable of empowering their ability for industrial use. On the other hand, for low-resource scenarios, the prevalent decode method, such as Conditional Random Field (CRF), fails to exploit the full information of the training data. This work proposes a fast and accurate CWS framework that incorporates a light-weighted model and an upgraded decode method (PCRF) towards industrially low-resource CWS scenarios. First, we distill a Transformer-based student model as an encoder, which not only accelerates the inference speed but also combines open knowledge and domain-specific knowledge. Second, the perplexity score to evaluate the language model is fused into the CRF module to better identify the word boundaries. Experiments show that our work obtains relatively high performance on multiple datasets with as low as 14\% of time consumption compared with the original BERT-based model. Moreover, under the low-resource setting, we get superior results in comparison with the traditional decoding methods.
Abstract（参考訳）: 事前学習されたモデルの強力な能力から、中国語単語分割(cws)の研究は近年大きな進展を遂げている。しかし、計算量が大きいため、大規模で複雑なモデルでは、産業利用に力を与えることができない。一方、低リソースシナリオでは、条件付きランダムフィールド(CRF)のような一般的なデコード方式では、トレーニングデータの完全な情報を利用することができない。本研究は,工業的に低リソースなCWSシナリオに対して,軽量モデルと改良された復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。まず、トランスフォーマーベースの学生モデルをエンコーダとして蒸留し、推論速度を加速するだけでなく、オープン知識とドメイン固有知識を組み合わせる。第二に、言語モデルを評価する難易度スコアをCRFモジュールに融合させ、単語境界をよりよく識別する。実験の結果,従来のbertベースのモデルと比較して,複数のデータセットにおいて,14\%の時間消費で比較的高い性能が得られることがわかった。また,低リソース環境下では,従来の復号法と比較して優れた結果が得られる。

関連論文リスト

Towards A Generalist Code Embedding Model Based On Massive Data Synthesis [35.04242699869519]
汎用コード検索のための最先端の埋め込みモデルである textbfCodeR (underlineCode underlineRetrieval) を導入する。 CodeRの優れたパフォーマンスは、DRU原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
論文参考訳（メタデータ） (2025-05-19T04:37:53Z)
Post-Training Language Models for Continual Relation Extraction [0.0]
本研究では,事前学習言語モデル(PLM),特に大規模言語モデル(LLM)を知識グラフに適用することを検討した。我々は,TACREDおよびFewRelデータセット上で,デコーダのみのモデル(Mistral-7BとLlama2-7B)とエンコーダ-デコーダモデル(Flan-T5 Base)を評価する。
論文参考訳（メタデータ） (2025-04-07T16:01:22Z)
One-shot Federated Learning via Synthetic Distiller-Distillate Communication [63.89557765137003]
One-shot Federated Learning (FL)は、単一のコミュニケーションで機械学習モデルの協調トレーニングを促進する強力な技術である。我々はこれらの課題に対処するために,新しい,実用的なワンショットFLフレームワークであるFedSD2Cを提案する。
論文参考訳（メタデータ） (2024-12-06T17:05:34Z)
MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。 10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-20T03:01:41Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文参考訳（メタデータ） (2024-02-29T04:40:25Z)
Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable Transfer from Black-Box to Lightweight Segmentation Model [25.3403116022412]
CoRTeは、ブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベリング関数である。我々は,2つの合成から現実の環境でCoRTeをベンチマークし,ブラックボックスモデルを用いて目標データ分布の軽量モデルにおける知識を伝達する際,顕著な結果を示した。
論文参考訳（メタデータ） (2024-02-20T16:35:14Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文参考訳（メタデータ） (2023-06-19T14:02:45Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文参考訳（メタデータ） (2022-01-05T02:46:16Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)
RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文参考訳（メタデータ） (2020-11-13T11:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。