論文の概要: PhayaThaiBERT: Enhancing a Pretrained Thai Language Model with
Unassimilated Loanwords
- arxiv url: http://arxiv.org/abs/2311.12475v1
- Date: Tue, 21 Nov 2023 09:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:18:44.423552
- Title: PhayaThaiBERT: Enhancing a Pretrained Thai Language Model with
Unassimilated Loanwords
- Title(参考訳): PhayaThaiBERT:未同義語による事前訓練されたタイ語モデルの実現
- Authors: Panyut Sriwirote, Jalinee Thapiang, Vasan Timtong, Attapol T.
Rutherford
- Abstract要約: WangchanBERTaは、外国語の理解に関して欠点がある。
我々は,XLM-Rの事前学習トークン化器からの語彙移動を通じてWangchanBERTaの語彙を拡張し,拡張トークン化器を用いて新しいモデルを事前学習する。
以上の結果から,新しい事前学習モデルであるPhayaThaiBERTは,WangchanBERTaを多くの下流タスクやデータセットで上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While WangchanBERTa has become the de facto standard in transformer-based
Thai language modeling, it still has shortcomings in regard to the
understanding of foreign words, most notably English words, which are often
borrowed without orthographic assimilation into Thai in many contexts. We
identify the lack of foreign vocabulary in WangchanBERTa's tokenizer as the
main source of these shortcomings. We then expand WangchanBERTa's vocabulary
via vocabulary transfer from XLM-R's pretrained tokenizer and pretrain a new
model using the expanded tokenizer, starting from WangchanBERTa's checkpoint,
on a new dataset that is larger than the one used to train WangchanBERTa. Our
results show that our new pretrained model, PhayaThaiBERT, outperforms
WangchanBERTa in many downstream tasks and datasets.
- Abstract(参考訳): wangchanbertaはトランスフォーマーベースのタイ語モデリングのデファクトスタンダードとなっているが、外国語の理解に関してはまだ欠点があり、特に英語の単語は多くの文脈でタイ語に正書法を同化せずに借用されることが多い。
我々は,WangchanBERTaのトークン化器における外来語彙の欠如を,これらの欠点の主な原因としている。
次に,WangchanBERTa の語彙を XLM-R の事前学習トークン化器からの語彙転送により拡張し,WangchanBERTa のチェックポイントから始まる拡張トークン化器を用いて,WangchanBERTa のトレーニングに用いるものよりも大きいデータセットに事前学習する。
以上の結果から,新しい事前学習モデルであるPhayaThaiBERTは,WangchanBERTaを多くの下流タスクやデータセットで上回っていることがわかった。
関連論文リスト
- RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with
Effective Domain-Specific Vocabulary Initialization [33.46519116869276]
IndoBERTweetはインドネシアのTwitterにとって初めての大規模な事前訓練モデルだ。
新たな単語タイプに対してBERT埋め込み層を初期化する方法をベンチマークする。
平均BERTサブワード埋め込みの初期化は事前学習を5倍速くすることがわかった。
論文 参考訳(メタデータ) (2021-09-10T01:27:51Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - KR-BERT: A Small-Scale Korean-Specific Language Model [0.0]
韓国固有のKR-BERTモデルを,より小さな語彙とデータセットを用いて訓練した。
本モデルでは, コーパスを約1/10のサイズのコーパスを用いて, 既存の事前学習モデルと比較し, 比較検討を行った。
論文 参考訳(メタデータ) (2020-08-10T09:26:00Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - An Empirical Study of Pre-trained Transformers for Arabic Information
Extraction [25.10651348642055]
我々は、GigaBERTと呼ばれるカスタマイズされたバイリンガルBERTを、アラビア語のNLPと英語からアラビア語へのゼロショットトランスファー学習のために事前訓練する。
GigaBERTによるIEタスク間のゼロショート転送の有効性について検討した。
我々の最良のモデルは、教師付きおよびゼロショット転送設定の両方において、mBERT、XLM-RoBERTa、AraBERTを大きく上回る。
論文 参考訳(メタデータ) (2020-04-30T00:01:08Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。