論文の概要: Distilling the Knowledge of Romanian BERTs Using Multiple Teachers
- arxiv url: http://arxiv.org/abs/2112.12650v1
- Date: Thu, 23 Dec 2021 15:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:49:40.246423
- Title: Distilling the Knowledge of Romanian BERTs Using Multiple Teachers
- Title(参考訳): 複数の教師を用いたルーマニア・ベルトの知識の蒸留
- Authors: Andrei-Marius Avram, Darius Catrina, Dumitru-Clementin Cercel, Mihai
Dasc\u{a}lu, Traian Rebedea, Vasile P\u{a}i\c{s}, Dan Tufi\c{s}
- Abstract要約: ルーマニア語で蒸留されたBERTモデルの3つの軽量かつ高速なバージョンを紹介する。
我々の知る限り、これはルーマニアの蒸留されたBERTモデルを作成する最初の試みである。
- 参考スコア(独自算出の注目度): 0.47169950535905025
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As transfer learning from large-scale pre-trained language models has become
prevalent in Natural Language Processing, running these models in
computationally constrained environments remains a challenging problem yet to
address. Several solutions including knowledge distillation, network
quantization or network pruning have been proposed; however, these approaches
focus mostly on the English language, thus widening the gap when considering
low-resource languages. In this work, we introduce three light and fast
versions of distilled BERT models for the Romanian language:
Distil-BERT-base-ro, Distil-RoBERT-base and DistilMulti-BERT-base-ro. The first
two models resulted from individually distilling the knowledge of the two base
versions of Romanian BERTs available in literature, while the last one was
obtained by distilling their ensemble. To our knowledge, this is the first
attempt to create publicly available Romanian distilled BERT models, which were
thoroughly evaluated on five tasks: part-of-speech tagging, named entity
recognition, sentiment analysis, semantic textual similarity and dialect
identification. The experimental results on these benchmarks proved that our
three distilled models maintain most performance in terms of accuracy with
their teachers, while being twice as fast on a GPU and ~35\% smaller. In
addition, we further test the similarity between our students and their
teachers prediction by measuring their label and probability loyalty, together
with regression loyalty - a new metric introduced in this work.
- Abstract(参考訳): 大規模事前学習型言語モデルからの変換学習が自然言語処理で普及するにつれて、これらのモデルを計算に制約のある環境で実行することは、まだ解決が難しい問題である。
知識蒸留、ネットワーク量子化、ネットワークプルーニングなど、いくつかのソリューションが提案されているが、これらのアプローチは主に英語に焦点を当てており、低リソース言語を考える際のギャップを広げている。
本研究では,ルーマニア語で蒸留されたBERTモデルの3つの軽量・高速バージョンであるDistil-BERT-base-ro,Distil-RoBERT-base-ro,DistilMulti-BERT-base-roを紹介する。
最初の2つのモデルは、文献で利用可能な2種類のルーマニア式BERTの知識を個別に蒸留し、最後の1つはアンサンブルを蒸留することで得られた。
我々の知る限りでは、これはルーマニアの蒸留されたBERTモデルを作成する最初の試みであり、これは5つのタスクで徹底的に評価された: 音声タグ付け、名前付きエンティティ認識、感情分析、意味的テキスト類似性、方言識別である。
これらのベンチマーク実験の結果、我々の3つの蒸留モデルでは、GPUの2倍の速度と35倍の精度で、教師との精度で最も高い性能を維持していることがわかった。
さらに,この研究で導入された新たな指標である回帰忠誠とラベルと確率忠誠度を測ることで,学生と教師の予測の類似性をさらに検証する。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。