論文の概要: DistilCamemBERT: a distillation of the French model CamemBERT
- arxiv url: http://arxiv.org/abs/2205.11111v1
- Date: Mon, 23 May 2022 08:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:09:44.399642
- Title: DistilCamemBERT: a distillation of the French model CamemBERT
- Title(参考訳): DistilCamemBERT:フランスのモデルであるCamemBERTの蒸留
- Authors: Cyrile Delestre, Abibatou Amar
- Abstract要約: 本稿では、よく知られたフランスのモデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。
トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Natural Language Processing (NLP) models based on Transformer
structures represent the state of the art in terms of performance on very
diverse tasks. However, these models are complex and represent several hundred
million parameters for the smallest of them. This may hinder their adoption at
the industrial level, making it difficult to scale up to a reasonable
infrastructure and/or to comply with societal and environmental
responsibilities. To this end, we present in this paper a model that
drastically reduces the computational cost of a well-known French model
(CamemBERT), while preserving good performance.
- Abstract(参考訳): トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。
しかし、これらのモデルは複雑であり、最小のモデルでは数億のパラメータを表す。
これは産業レベルでの彼らの採用を妨げる可能性があるため、合理的なインフラへのスケールアップや、社会的および環境的責任の遵守が難しくなる。
本稿では,優れた性能を維持しつつ,よく知られたフランス語モデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。
関連論文リスト
- LaCo: Large Language Model Pruning via Layer Collapse [63.973142426228016]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
後部モデル層が先行層に崩壊する,textitLayer Collapse (LaCo) と呼ばれる簡潔な層分割法を提案する。
実験の結果,25~30%の刈り取り率で平均タスク性能が80%以上維持されていることがわかった。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文 参考訳(メタデータ) (2022-10-12T17:23:21Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文 参考訳(メタデータ) (2020-05-27T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。