論文の概要: ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing
- arxiv url: http://arxiv.org/abs/2310.11166v2
- Date: Sat, 28 Oct 2023 16:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:35:07.404297
- Title: ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing
- Title(参考訳): ViSoBERT:ベトナムのソーシャルメディアテキスト処理のための事前学習言語モデル
- Authors: Quoc-Nam Nguyen, Thang Chau Phan, Duc-Vu Nguyen, Kiet Van Nguyen
- Abstract要約: ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
- 参考スコア(独自算出の注目度): 1.1765925931670576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: English and Chinese, known as resource-rich languages, have witnessed the
strong development of transformer-based language models for natural language
processing tasks. Although Vietnam has approximately 100M people speaking
Vietnamese, several pre-trained models, e.g., PhoBERT, ViBERT, and vELECTRA,
performed well on general Vietnamese NLP tasks, including POS tagging and named
entity recognition. These pre-trained language models are still limited to
Vietnamese social media tasks. In this paper, we present the first monolingual
pre-trained language model for Vietnamese social media texts, ViSoBERT, which
is pre-trained on a large-scale corpus of high-quality and diverse Vietnamese
social media texts using XLM-R architecture. Moreover, we explored our
pre-trained model on five important natural language downstream tasks on
Vietnamese social media texts: emotion recognition, hate speech detection,
sentiment analysis, spam reviews detection, and hate speech spans detection.
Our experiments demonstrate that ViSoBERT, with far fewer parameters, surpasses
the previous state-of-the-art models on multiple Vietnamese social media tasks.
Our ViSoBERT model is available only for research purposes.
- Abstract(参考訳): 資源豊富な言語として知られる英語と中国語は、自然言語処理タスクのためのトランスフォーマーベースの言語モデルの発展を目撃している。
ベトナムには約1億人がベトナム語を話すが、PhoBERT、ViBERT、vELECTRAといった事前訓練されたモデルは、POSタグ付けや名前付きエンティティ認識などベトナムの一般的なNLPタスクでうまく機能している。
これらの事前訓練された言語モデルは依然としてベトナムのソーシャルメディアに限られている。
本稿では,ベトナム語ソーシャルメディアテキストを対象としたモノリンガル事前学習型言語モデルViSoBERTについて,XLM-Rアーキテクチャを用いた高品質かつ多様なベトナム語ソーシャルメディアテキストの大規模コーパスで事前学習を行った。
さらに,ベトナムのソーシャルメディア上で,感情認識,ヘイトスピーチ検出,感情分析,スパムレビュー検出,ヘイトスピーチスパン検出という,5つの重要な自然言語下流タスクに関する事前学習モデルを探索した。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回っている。
私たちのViSoBERTモデルは研究目的でのみ利用可能です。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文 参考訳(メタデータ) (2024-03-23T16:26:49Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - ViDeBERTa: A powerful pre-trained language model for Vietnamese [10.000783498978604]
本稿ではベトナム語のための単言語モデルViDeBERTaについて述べる。
ViDeBERTa_xsmall、ViDeBERTa_base、ViDeBERTa_largeの3つのバージョンは、高品質で多様なベトナム語テキストの大規模コーパスで事前訓練されている。
我々は,3つの重要な自然言語下流タスク,パート・オブ・音声タギング,名前付き親和性認識,質問応答を微調整し,評価する。
論文 参考訳(メタデータ) (2023-01-25T07:26:54Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文 参考訳(メタデータ) (2020-03-02T10:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。