論文の概要: A Family of Pretrained Transformer Language Models for Russian
- arxiv url: http://arxiv.org/abs/2309.10931v1
- Date: Tue, 19 Sep 2023 21:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:57:06.956465
- Title: A Family of Pretrained Transformer Language Models for Russian
- Title(参考訳): ロシア語用事前学習トランスフォーマー言語モデルの一家系
- Authors: Dmitry Zmitrovich, Alexander Abramov, Andrey Kalmykov, Maria
Tikhonova, Ekaterina Taktasheva, Danil Astafurov, Mark Baushenko, Artem
Snegirev, Tatiana Shavrina, Sergey Markov, Vladislav Mikhailov, Alena
Fenogenova
- Abstract要約: 本稿では, エンコーダ (ruBERT, ruRoBERTa, ruELECTRA) , デコーダ (ruGPT-3) , エンコーダ-デコーダ (ruT5, FRED-T5) モデルに基づく13個のロシアトランスフォーマーLMのコレクションについて述べる。
これらのモデルへのアクセスは、HuggingFaceプラットフォーム経由で容易に可能である。
- 参考スコア(独自算出の注目度): 32.6373403751294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, Transformer language models (LMs) represent a fundamental component
of the NLP research methodologies and applications. However, the development of
such models specifically for the Russian language has received little
attention. This paper presents a collection of 13 Russian Transformer LMs based
on the encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and
encoder-decoder (ruT5, FRED-T5) models in multiple sizes. Access to these
models is readily available via the HuggingFace platform. We provide a report
of the model architecture design and pretraining, and the results of evaluating
their generalization abilities on Russian natural language understanding and
generation datasets and benchmarks. By pretraining and releasing these
specialized Transformer LMs, we hope to broaden the scope of the NLP research
directions and enable the development of industrial solutions for the Russian
language.
- Abstract(参考訳): 現在、トランスフォーマー言語モデル(LM)はNLP研究の方法論と応用の基礎的な構成要素となっている。
しかし、特にロシア語向けのモデルの開発は、ほとんど注目されていない。
本稿では, エンコーダ (ruBERT, ruRoBERTa, ruELECTRA) とデコーダ (ruGPT-3) , エンコーダ-デコーダ (ruT5, FRED-T5) モデルに基づく13個のロシアトランスフォーマーLMのコレクションについて述べる。
これらのモデルへのアクセスは、hughingfaceプラットフォーム経由で簡単に利用できる。
本稿では,モデルアーキテクチャの設計と事前学習,およびロシア自然言語理解と生成データセットとベンチマークの一般化能力の評価結果について報告する。
これらの特殊なトランスフォーマーLMの事前学習とリリースにより、NLP研究の方向性の範囲を広げ、ロシア語のための産業ソリューションの開発を可能にしたい。
関連論文リスト
- PeLLE: Encoder-based language models for Brazilian Portuguese based on
open data [0.40485107444088947]
本稿では,ブラジルポルトガル語のRoBERTaアーキテクチャに基づく大規模言語モデルのファミリーであるPeLLEについて紹介する。
既存の多言語およびPT-BRによる事前学習型トランスフォーマーベースLLMエンコーダに対するPeLLEモデルの評価を行った。
論文 参考訳(メタデータ) (2024-02-29T14:34:03Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - Language Models are Good Translators [63.528370845657896]
単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。
ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-06-25T13:30:29Z) - IndT5: A Text-to-Text Transformer for 10 Indigenous Languages [7.952582509792971]
IndT5は、Indigenous言語のためのトランスフォーマー言語モデルである。
IndCorpusは10の先住民言語とスペイン語のための新しいデータセットです。
本稿では,IndT5の機械翻訳への応用について,スペイン語とインド固有の言語間の翻訳手法について検討する。
論文 参考訳(メタデータ) (2021-04-04T07:09:09Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。