論文の概要: IndT5: A Text-to-Text Transformer for 10 Indigenous Languages
- arxiv url: http://arxiv.org/abs/2104.07483v2
- Date: Tue, 27 Apr 2021 09:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 08:33:49.541645
- Title: IndT5: A Text-to-Text Transformer for 10 Indigenous Languages
- Title(参考訳): IndT5: 10言語用テキスト変換器
- Authors: El Moatez Billah Nagoudi, Wei-Rui Chen, Muhammad Abdul-Mageed and
Hasan Cavusogl
- Abstract要約: IndT5は、Indigenous言語のためのトランスフォーマー言語モデルである。
IndCorpusは10の先住民言語とスペイン語のための新しいデータセットです。
本稿では,IndT5の機械翻訳への応用について,スペイン語とインド固有の言語間の翻訳手法について検討する。
- 参考スコア(独自算出の注目度): 7.952582509792971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models have become fundamental components of natural
language processing based pipelines. Although several Transformer models have
been introduced to serve many languages, there is a shortage of models
pre-trained for low-resource and Indigenous languages. In this work, we
introduce IndT5, the first Transformer language model for Indigenous languages.
To train IndT5, we build IndCorpus--a new dataset for ten Indigenous languages
and Spanish. We also present the application of IndT5 to machine translation by
investigating different approaches to translate between Spanish and the
Indigenous languages as part of our contribution to the AmericasNLP 2021 Shared
Task on Open Machine Translation. IndT5 and IndCorpus are publicly available
for research
- Abstract(参考訳): トランスフォーマー言語モデルは、自然言語処理ベースのパイプラインの基本コンポーネントとなっている。
トランスフォーマーモデルは、多くの言語を提供するために導入されたが、低リソースおよびインディゴニティ言語向けに事前訓練されたモデルが不足している。
本研究では,Indigenous Languageの最初のTransformer言語モデルであるIndT5を紹介する。
IndT5をトレーニングするために、IndCorpusという10の先住民言語とスペイン語の新しいデータセットを構築しました。
また,AmericasNLP 2021 Shared Task on Open Machine Translationへのコントリビューションの一環として,スペイン語とインディゴニティ言語間の翻訳のさまざまなアプローチを調査し,機械翻訳へのIndT5の適用について述べる。
IndT5とIndCorpusが研究目的で公開
関連論文リスト
- A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - idT5: Indonesian Version of Multilingual T5 Transformer [0.0]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
論文 参考訳(メタデータ) (2023-02-02T03:56:16Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。