論文の概要: VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2403.15882v1
- Date: Sat, 23 Mar 2024 16:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:32:18.631115
- Title: VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding
- Title(参考訳): VLUE:ベトナムの自然言語理解のための新しいベンチマークとマルチタスク知識伝達学習
- Authors: Phong Nguyen-Thuan Do, Son Quoc Tran, Phu Gia Hoang, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: 本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
- 参考スコア(独自算出の注目度): 1.813644606477824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Natural Language Understanding (NLU) benchmarks in various languages, such as GLUE for English, CLUE for Chinese, KLUE for Korean, and IndoNLU for Indonesian, has facilitated the evaluation of new NLU models across a wide range of tasks. To establish a standardized set of benchmarks for Vietnamese NLU, we introduce the first Vietnamese Language Understanding Evaluation (VLUE) benchmark. The VLUE benchmark encompasses five datasets covering different NLU tasks, including text classification, span extraction, and natural language understanding. To provide an insightful overview of the current state of Vietnamese NLU, we then evaluate seven state-of-the-art pre-trained models, including both multilingual and Vietnamese monolingual models, on our proposed VLUE benchmark. Furthermore, we present CafeBERT, a new state-of-the-art pre-trained model that achieves superior results across all tasks in the VLUE benchmark. Our model combines the proficiency of a multilingual pre-trained model with Vietnamese linguistic knowledge. CafeBERT is developed based on the XLM-RoBERTa model, with an additional pretraining step utilizing a significant amount of Vietnamese textual data to enhance its adaptation to the Vietnamese language. For the purpose of future research, CafeBERT is made publicly available for research purposes.
- Abstract(参考訳): 英語のGLUE、中国語のCLUE、韓国語のKLUE、インドネシア語のIndoNLUなど、さまざまな言語における自然言語理解(NLU)ベンチマークの成功により、幅広いタスクで新しいNLUモデルの評価が容易になった。
ベトナム語NLUのための標準化されたベンチマークセットを確立するため,ベトナム語理解評価(VLUE)ベンチマークを導入した。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
ベトナムのNLUの現状を概観するために,提案したVLUEベンチマークを用いて,マルチリンガルモデルとベトナム語単言語モデルを含む,最先端の事前訓練モデル7つを評価した。
さらに、VLUEベンチマークにおいて、全てのタスクにおいて優れた結果が得られる、最先端の事前訓練モデルであるCafeBERTを提案する。
本モデルは,多言語事前学習モデルの習熟度とベトナム語の知識を組み合わせたモデルである。
CafeBERTはXLM-RoBERTaモデルに基づいて開発され、ベトナム語への適応性を高めるために大量のベトナム語のテキストデータを活用するための予備訓練が加えられている。
将来の研究のために、CafeBERTは研究目的で公開されている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models [0.0]
ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2024-04-17T05:57:17Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - SMTCE: A Social Media Text Classification Evaluation Benchmark and
BERTology Models for Vietnamese [3.0938904602244355]
本稿では,様々なSMTCタスクを対象としたデータセットとモデルの収集として,ソーシャルメディアテキスト分類評価(SMTCE)ベンチマークを紹介する。
我々は,多言語BERTベースモデルと単言語BERTベースモデルの有効性をベンチマークで実装し,解析する。
このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。
論文 参考訳(メタデータ) (2022-09-21T16:33:46Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。