論文の概要: MiniRBT: A Two-stage Distilled Small Chinese Pre-trained Model
- arxiv url: http://arxiv.org/abs/2304.00717v1
- Date: Mon, 3 Apr 2023 04:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:46:03.488341
- Title: MiniRBT: A Two-stage Distilled Small Chinese Pre-trained Model
- Title(参考訳): minirbt:中国製2段蒸留小型プリトレーニングモデル
- Authors: Xin Yao, Ziqing Yang, Yiming Cui, Shijin Wang
- Abstract要約: MiniRBTは、中国語の自然言語処理の研究を進めることを目的とした、中国の小規模な事前訓練モデルである。
機械読解とテキスト分類タスクに関する実験により,MiniRBTはRoBERTaと比較して94%の性能を達成した。
- 参考スコア(独自算出の注目度): 21.444503777215637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing, pre-trained language models have become
essential infrastructures. However, these models often suffer from issues such
as large size, long inference time, and challenging deployment. Moreover, most
mainstream pre-trained models focus on English, and there are insufficient
studies on small Chinese pre-trained models. In this paper, we introduce
MiniRBT, a small Chinese pre-trained model that aims to advance research in
Chinese natural language processing. MiniRBT employs a narrow and deep student
model and incorporates whole word masking and two-stage distillation during
pre-training to make it well-suited for most downstream tasks. Our experiments
on machine reading comprehension and text classification tasks reveal that
MiniRBT achieves 94% performance relative to RoBERTa, while providing a 6.8x
speedup, demonstrating its effectiveness and efficiency.
- Abstract(参考訳): 自然言語処理では、事前訓練された言語モデルが重要な基盤となっている。
しかしながら、これらのモデルは、大きなサイズ、長い推論時間、困難なデプロイメントといった問題に悩まされることが多い。
さらに、ほとんどの主流の事前訓練モデルは英語に焦点を合わせており、小さな中国の事前訓練モデルについての研究は不十分である。
本稿では,中国語の自然言語処理の研究を進めることを目的とした,中国語事前学習モデルMiniRBTを紹介する。
MiniRBTは狭く深い学生モデルを採用し、事前訓練中に全単語のマスキングと2段階の蒸留を取り入れ、下流の作業に適している。
機械読解とテキスト分類タスクに関する実験により,MiniRBTはRoBERTaと比較して94%の性能を実現し,6.8倍の高速化を実現した。
関連論文リスト
- On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan
pre-trained language models [0.0]
チベット語には、その低リソース性のため、現在、大きな言語モデルは存在しない。
TNCC字幕データセットを用いた3種類の効率的な微調整実験を行った。
論文 参考訳(メタデータ) (2023-09-21T14:29:23Z) - Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training [36.5936227129021]
トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデルを新しい言語に拡張することができる。
我々は,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
論文 参考訳(メタデータ) (2022-12-20T18:17:28Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z) - On the importance of pre-training data volume for compact language
models [0.7691755449724638]
本研究では,事前学習データ量がコンパクト言語モデルに与える影響について検討する。
我々は,100MBのテキストで良好な性能のモデルが得られることを観察した。
論文 参考訳(メタデータ) (2020-10-08T07:40:21Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z) - From English To Foreign Languages: Transferring Pre-trained Language
Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。
多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。
我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。