論文の概要: A Family of Pretrained Transformer Language Models for Russian
- arxiv url: http://arxiv.org/abs/2309.10931v3
- Date: Thu, 18 Apr 2024 07:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:29:13.937376
- Title: A Family of Pretrained Transformer Language Models for Russian
- Title(参考訳): ロシア語における事前学習型トランスフォーマー言語モデルの一家系
- Authors: Dmitry Zmitrovich, Alexander Abramov, Andrey Kalmykov, Maria Tikhonova, Ekaterina Taktasheva, Danil Astafurov, Mark Baushenko, Artem Snegirev, Vitalii Kadulin, Sergey Markov, Tatiana Shavrina, Vladislav Mikhailov, Alena Fenogenova,
- Abstract要約: 本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)にまたがる13個のロシアトランスフォーマーLMのコレクションを紹介する。
本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。
- 参考スコア(独自算出の注目度): 31.1608981359276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models (LMs) are fundamental to NLP research methodologies and applications in various languages. However, developing such models specifically for the Russian language has received little attention. This paper introduces a collection of 13 Russian Transformer LMs, which spans encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and encoder-decoder (ruT5, FRED-T5) architectures. We provide a report on the model architecture design and pretraining, and the results of evaluating their generalization abilities on Russian language understanding and generation datasets and benchmarks. By pretraining and releasing these specialized Transformer LMs, we aim to broaden the scope of the NLP research directions and enable the development of industrial solutions for the Russian language.
- Abstract(参考訳): トランスフォーマー言語モデル(LM)は、様々な言語におけるNLP研究方法論と応用の基礎である。
しかし、ロシア語に特化したそのようなモデルの開発はほとんど注目されていない。
本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)アーキテクチャにまたがる13のロシアトランスフォーマーLMのコレクションを紹介する。
本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。
これらの特殊なトランスフォーマーLMの事前学習とリリースにより、NLP研究の方向性の範囲を広げ、ロシア語のための産業ソリューションの開発を可能にすることを目指している。
関連論文リスト
- Vikhr: Constructing a State-of-the-art Bilingual Open-Source Instruction-Following Large Language Model for Russian [44.13635168077528]
Vikhrは、ロシアの言語に特化して設計された、最先端のバイリンガルなオープンソース命令フォローリング LLM である。
VikhrはMistral LLMシリーズの名称で、「強風」を意味する。
論文 参考訳(メタデータ) (2024-05-22T18:58:58Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - IndT5: A Text-to-Text Transformer for 10 Indigenous Languages [7.952582509792971]
IndT5は、Indigenous言語のためのトランスフォーマー言語モデルである。
IndCorpusは10の先住民言語とスペイン語のための新しいデータセットです。
本稿では,IndT5の機械翻訳への応用について,スペイン語とインド固有の言語間の翻訳手法について検討する。
論文 参考訳(メタデータ) (2021-04-04T07:09:09Z) - RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark [5.258267224004844]
先進的なロシア語理解評価ベンチマークであるロシア語GLUEを紹介する。
9つのタスクのベンチマークは、SuperGLUEの手法と類似して収集され、ロシア語のスクラッチから開発された。
論文 参考訳(メタデータ) (2020-10-29T20:31:39Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。