論文の概要: DistilCamemBERT: a distillation of the French model CamemBERT
- arxiv url: http://arxiv.org/abs/2205.11111v1
- Date: Mon, 23 May 2022 08:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:09:44.399642
- Title: DistilCamemBERT: a distillation of the French model CamemBERT
- Title(参考訳): DistilCamemBERT:フランスのモデルであるCamemBERTの蒸留
- Authors: Cyrile Delestre, Abibatou Amar
- Abstract要約: 本稿では、よく知られたフランスのモデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。
トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Natural Language Processing (NLP) models based on Transformer
structures represent the state of the art in terms of performance on very
diverse tasks. However, these models are complex and represent several hundred
million parameters for the smallest of them. This may hinder their adoption at
the industrial level, making it difficult to scale up to a reasonable
infrastructure and/or to comply with societal and environmental
responsibilities. To this end, we present in this paper a model that
drastically reduces the computational cost of a well-known French model
(CamemBERT), while preserving good performance.
- Abstract(参考訳): トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。
しかし、これらのモデルは複雑であり、最小のモデルでは数億のパラメータを表す。
これは産業レベルでの彼らの採用を妨げる可能性があるため、合理的なインフラへのスケールアップや、社会的および環境的責任の遵守が難しくなる。
本稿では,優れた性能を維持しつつ,よく知られたフランス語モデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。
関連論文リスト
- CamemBERT 2.0: A Smarter French Language Model Aged to Perfection [14.265650708194789]
これらの課題に対処するために,CamemBERTのベースモデルであるCamemBERTav2とCamemBERTv2の2つの新バージョンを紹介した。
どちらのモデルも、コンテキスト長が長く、トークン化ツールが更新された、はるかに大きくて最新のデータセットでトレーニングされている。
以上の結果から,これらの更新モデルは従来のモデルよりも大幅に優れており,現代のNLPシステムに有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:49:35Z) - Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。
我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。
我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文 参考訳(メタデータ) (2024-05-23T04:12:49Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文 参考訳(メタデータ) (2020-05-27T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。