論文の概要: idT5: Indonesian Version of Multilingual T5 Transformer
- arxiv url: http://arxiv.org/abs/2302.00856v2
- Date: Thu, 9 Nov 2023 08:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:48:29.968237
- Title: idT5: Indonesian Version of Multilingual T5 Transformer
- Title(参考訳): idt5:インドネシア版多言語t5トランスフォーマー
- Authors: Mukhlish Fuadi, Adhi Dharma Wibawa, Surya Sumpeno
- Abstract要約: インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indonesian language is spoken by almost 200 million people and is the 10th
most spoken language in the world, but it is under-represented in NLP (Natural
Language Processing) research. A sparsity of language resources has hampered
previous work on Indonesian. The Transformer is a new architecture rapidly
becoming dominant for NLP, surpassing alternatives like convolutional and
recurrent neural networks. T5 (Text-to-Text Transfer Transformer) is a
Transformer model that converts all text-based language problems to
text-to-text format for English. The multilingual variant is mT5 (multilingual
T5) which has shown promising results on many NLP tasks across languages.
However, the size of this multilingual model is a drawback for its application
in real production applications, which sometimes require only one language. In
this study, the mT5 model was adapted for only one language, Indonesian,
resulting in a pre-trained T5 model that was specific only for Indonesian with
a smaller size. For performance comparison, we fine-tuned this model and the
mT5 model to the Sentiment Analysis (SA), Question Generation (QG), and
Question Answering (QA) tasks with the exact mechanism and dataset. Fine-tuned
model based on our model achieved 77.18% accuracy on SA, 8% higher than the
mT5-based model, and obtained nearly the same score as the mT5-based model on
QG and QA. The results confirm that it is possible to produce a smaller
pre-trained model that maintains comparable yields while reducing the model
size by up to 58%. In addition, the resulting model requires less memory, loads
faster, and inference times faster.
- Abstract(参考訳): インドネシア語はおよそ2億人の人々が話しており、世界で10番目に多く話されている言語であるが、nlp(natural language processing)研究ではあまり語られていない。
言語資源の多さはインドネシアにおける以前の研究を妨げている。
Transformerは新しいアーキテクチャで、畳み込みニューラルネットワークやリカレントニューラルネットワークといった選択肢を超越して、NLPで急速に支配的になっている。
T5 (Text-to-Text Transfer Transformer) は、すべてのテキストベースの言語問題を英語のテキストからテキストへ変換するトランスフォーマーモデルである。
多言語型はmt5(multilingual t5)であり、言語間で多くのnlpタスクで有望な結果を示している。
しかし、この多言語モデルのサイズは、しばしば1つの言語しか必要としない実際の実運用アプリケーションに適用する上での欠点である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
性能比較のために,このモデルとmT5モデルを,感覚分析(SA),質問生成(QG),質問回答(QA)タスクに,正確なメカニズムとデータセットで微調整した。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
その結果、モデルサイズを最大58%削減しつつ、同等の収率を維持する、より小さな事前訓練モデルを作成することが可能であることが確認された。
さらに、結果のモデルではメモリの削減、ロードの高速化、推論の高速化が要求される。
関連論文リスト
- Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - Sequence to sequence pretraining for a less-resourced Slovenian language [0.0]
我々は2つの異なる大きさのT5型配列を、より少ない資源で形態的にリッチなスロベニア語のシーケンスモデルに訓練し、それらの振る舞いを分析した。
分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。
論文 参考訳(メタデータ) (2022-07-28T10:08:50Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。