論文の概要: BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language
Models for Sinhala Text Classification
- arxiv url: http://arxiv.org/abs/2208.07864v1
- Date: Tue, 16 Aug 2022 17:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:25:42.514661
- Title: BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language
Models for Sinhala Text Classification
- Title(参考訳): BERTifying Sinhala -- Sinhalaテキスト分類のための事前学習言語モデルの包括的解析
- Authors: Vinura Dhananjaya, Piyumal Demotte, Surangika Ranathunga, Sanath
Jayasena
- Abstract要約: 本研究は,Sinhalaテキスト分類のための事前学習言語モデルの性能を包括的に解析する最初の方法である。
Sinhala (XLM-R, LaBSE, LASER) を含む事前学習された多言語モデルのうち, XLM-R は Sinhala テキスト分類において最良であることを示す。
また,既存のSinhalaの学習済み言語モデルよりもはるかに優れている2つのRoBERTaベースのモノリンガルSinhalaモデルを事前訓練する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research provides the first comprehensive analysis of the performance of
pre-trained language models for Sinhala text classification. We test on a set
of different Sinhala text classification tasks and our analysis shows that out
of the pre-trained multilingual models that include Sinhala (XLM-R, LaBSE, and
LASER), XLM-R is the best model by far for Sinhala text classification. We also
pre-train two RoBERTa-based monolingual Sinhala models, which are far superior
to the existing pre-trained language models for Sinhala. We show that when
fine-tuned, these pre-trained language models set a very strong baseline for
Sinhala text classification and are robust in situations where labeled data is
insufficient for fine-tuning. We further provide a set of recommendations for
using pre-trained models for Sinhala text classification. We also introduce new
annotated datasets useful for future research in Sinhala text classification
and publicly release our pre-trained models.
- Abstract(参考訳): 本研究は,Sinhalaテキスト分類のための事前学習言語モデルの性能を包括的に分析する。
我々は,Sinhalaテキスト分類タスクの集合を検証した結果,XLM-R(XLM-R,LaBSE,LASER)を含む事前学習された多言語モデルのうち,XLM-Rは,Sinhalaテキスト分類において最良であることがわかった。
また,既存のSinhalaの学習済み言語モデルよりもはるかに優れている2つのRoBERTaベースのモノリンガルSinhalaモデルを事前訓練する。
これらの事前学習言語モデルは、微調整時にシンハラ文字分類の非常に強力なベースラインを設定し、微調整にラベル付きデータが不十分な状況において堅牢であることを示す。
さらに,sinhalaテキスト分類のための事前学習モデルの使用を推奨する。
また,sinhalaテキスト分類の将来研究に有用な新しい注釈付きデータセットを導入し,事前学習したモデルを公開する。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。