論文の概要: PhoBERT: Pre-trained language models for Vietnamese
- arxiv url: http://arxiv.org/abs/2003.00744v3
- Date: Mon, 5 Oct 2020 09:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:14:50.072093
- Title: PhoBERT: Pre-trained language models for Vietnamese
- Title(参考訳): PhoBERT:ベトナム語のための事前訓練言語モデル
- Authors: Dat Quoc Nguyen and Anh Tuan Nguyen
- Abstract要約: PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
- 参考スコア(独自算出の注目度): 11.685916685552982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PhoBERT with two versions, PhoBERT-base and PhoBERT-large, the
first public large-scale monolingual language models pre-trained for
Vietnamese. Experimental results show that PhoBERT consistently outperforms the
recent best pre-trained multilingual model XLM-R (Conneau et al., 2020) and
improves the state-of-the-art in multiple Vietnamese-specific NLP tasks
including Part-of-speech tagging, Dependency parsing, Named-entity recognition
and Natural language inference. We release PhoBERT to facilitate future
research and downstream applications for Vietnamese NLP. Our PhoBERT models are
available at https://github.com/VinAIResearch/PhoBERT
- Abstract(参考訳): PhoBERT-baseとPhoBERT-largeはベトナム語向けに事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から,PhoBERTは,最近最高の訓練済み多言語モデルであるXLM-R(Conneau et al., 2020)を一貫して上回り,音声タグ付け,依存性解析,名前付き一致認識,自然言語推論など,ベトナム固有の複数のNLPタスクにおける最先端性の向上を図っている。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
私たちのPhoBERTモデルはhttps://github.com/VinAIResearch/PhoBERTで利用可能です。
関連論文リスト
- VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文 参考訳(メタデータ) (2024-03-23T16:26:49Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - ViDeBERTa: A powerful pre-trained language model for Vietnamese [10.000783498978604]
本稿ではベトナム語のための単言語モデルViDeBERTaについて述べる。
ViDeBERTa_xsmall、ViDeBERTa_base、ViDeBERTa_largeの3つのバージョンは、高品質で多様なベトナム語テキストの大規模コーパスで事前訓練されている。
我々は,3つの重要な自然言語下流タスク,パート・オブ・音声タギング,名前付き親和性認識,質問応答を微調整し,評価する。
論文 参考訳(メタデータ) (2023-01-25T07:26:54Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese [5.955739135932037]
BARTphoはベトナムで事前訓練された最初の大規模モノリンガルシーケンス・ツー・シーケンスモデルである。
我々のBARTphoは、シーケンス・ツー・シーケンス・デノゲーション・モデルであるBARTの"大規模"アーキテクチャと事前学習方式を使用している。
ベトナム語テキスト要約の下流タスクの実験は、我々のBARTphoが強いベースラインmBARTより優れていることを示している。
論文 参考訳(メタデータ) (2021-09-20T17:14:22Z) - PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech
tagging, named entity recognition and dependency parsing [8.558842542068778]
PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。
ベトナムのベンチマークデータセットの実験は、PhoNLPが最先端の結果を生成することを示している。
論文 参考訳(メタデータ) (2021-01-05T12:13:09Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。