Fugu-MT 論文翻訳(概要): DistilCamemBERT: a distillation of the French model CamemBERT

論文の概要: DistilCamemBERT: a distillation of the French model CamemBERT

arxiv url: http://arxiv.org/abs/2205.11111v1
Date: Mon, 23 May 2022 08:04:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 15:09:44.399642
Title: DistilCamemBERT: a distillation of the French model CamemBERT
Title（参考訳）: DistilCamemBERT:フランスのモデルであるCamemBERTの蒸留
Authors: Cyrile Delestre, Abibatou Amar
Abstract要約: 本稿では、よく知られたフランスのモデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern Natural Language Processing (NLP) models based on Transformer structures represent the state of the art in terms of performance on very diverse tasks. However, these models are complex and represent several hundred million parameters for the smallest of them. This may hinder their adoption at the industrial level, making it difficult to scale up to a reasonable infrastructure and/or to comply with societal and environmental responsibilities. To this end, we present in this paper a model that drastically reduces the computational cost of a well-known French model (CamemBERT), while preserving good performance.
Abstract（参考訳）: トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。しかし、これらのモデルは複雑であり、最小のモデルでは数億のパラメータを表す。これは産業レベルでの彼らの採用を妨げる可能性があるため、合理的なインフラへのスケールアップや、社会的および環境的責任の遵守が難しくなる。本稿では,優れた性能を維持しつつ,よく知られたフランス語モデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。

関連論文リスト

Transferring Features Across Language Models With Model Stitching [61.24716360332365]
言語モデルの残差ストリーム間のアフィンマッピングは、モデル間で表現された特徴を転送するための安価な方法であることを示す。小型モデルと大規模モデルは同様の表現空間を学習し、より小さなモデルでSAEなどの高価なコンポーネントをトレーニングし、FLOPの貯蓄でより大きなモデルに転送する動機付けをする。
論文参考訳（メタデータ） (2025-06-07T01:03:25Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection [14.265650708194789]
これらの課題に対処するために,CamemBERTのベースモデルであるCamemBERTav2とCamemBERTv2の2つの新バージョンを紹介した。どちらのモデルも、コンテキスト長が長く、トークン化ツールが更新された、はるかに大きくて最新のデータセットでトレーニングされている。以上の結果から,これらの更新モデルは従来のモデルよりも大幅に優れており,現代のNLPシステムに有用なツールであることが示唆された。
論文参考訳（メタデータ） (2024-11-13T18:49:35Z)
Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文参考訳（メタデータ） (2024-05-23T04:12:49Z)
Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文参考訳（メタデータ） (2023-01-24T16:40:01Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Legal-Tech Open Diaries: Lesson learned on how to develop and deploy light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。 5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文参考訳（メタデータ） (2022-10-24T10:08:59Z)
Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。 Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文参考訳（メタデータ） (2022-05-25T02:51:12Z)
PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文参考訳（メタデータ） (2021-10-16T11:44:23Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行うカスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文参考訳（メタデータ） (2020-05-27T22:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。