論文の概要: Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training
- arxiv url: http://arxiv.org/abs/2403.15470v1
- Date: Wed, 20 Mar 2024 10:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:41:56.471104
- Title: Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training
- Title(参考訳): Vi-Mistral-X: 先進的な事前学習を伴うベトナム語モデルの構築
- Authors: James Vo,
- Abstract要約: vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of Large Language Models (LLMs) has significantly transformed the field of natural language processing, although the focus on English-centric models has created a noticeable research gap for specific languages, including Vietnamese. To address this issue, this paper presents vi-mistral-x, an innovative Large Language Model designed expressly for the Vietnamese language. It utilizes a unique method of continual pre-training, based on the Mistral architecture, which incorporates grouped-query attention and sliding window attention techniques. This model, vi-Mistral-X, marks a significant step forward in improving the understanding and generation of the Vietnamese language. It introduces an additional phase of continual pre-training, specifically adapted for Vietnamese, enhancing the model's capability in understanding complex language nuances and generating accurate, context-aware Vietnamese text. Through comprehensive testing on various benchmarks, vi-mistral-x has shown to outperform existing Vietnamese LLMs in several key areas, including text classification, question answering, and text generation. Particularly, in the Vietnamese Multitask Language Understanding (VMLU) benchmark, vi-mistral-x sets a new standard, outperforming other available models significantly. This paper highlights the critical role of continual pre-training in advancing language-specific LLMs and opens new avenues for the development of multilingual models. We aim for vi-mistral-x to not just be an important asset for processing the Vietnamese language but also to encourage more advancements in creating large language models for languages that are less represented.
- Abstract(参考訳): 大規模言語モデル(LLMs)の進歩は自然言語処理の分野を大きく変えてきたが、英語中心のモデルに焦点を当てたことにより、ベトナム語を含む特定の言語に対する顕著な研究ギャップが生まれている。
この問題に対処するため,ベトナム語向けに設計された革新的大規模言語モデルであるvi-mistral-xを提案する。
Mistralアーキテクチャをベースとして、グループ化されたクエリの注意とスライディングウインドウの注意を取り入れた、ユニークな継続事前トレーニング手法を採用している。
このモデルVi-Mistral-Xはベトナム語の理解と生成を改善するための重要な一歩となる。
ベトナム語に特化して適応し、複雑な言語のニュアンスを理解し、正確な文脈対応のベトナム語のテキストを生成するモデルの能力を高める。
様々なベンチマークの総合的なテストを通じて、vi-mistral-xは、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域において、既存のベトナムのLLMよりも優れていることを示した。
特に、ベトナムのマルチタスク言語理解(VMLU)ベンチマークでは、vi-mistral-xが新しい標準を設定し、他の利用可能なモデルよりも大幅に優れている。
本稿では,言語固有のLLMにおける継続事前学習の重要性を強調し,多言語モデル開発のための新たな道を開く。
我々はベトナム語処理の重要な資産であるだけでなく、表現の少ない言語のための大規模言語モデルの構築において、さらなる進歩を促進することを目的としている。
関連論文リスト
- ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models [0.0]
ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2024-04-17T05:57:17Z) - LaVy: Vietnamese Multimodal Large Language Model [0.0]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。
ベトナムの大規模言語モデルに関連する作品が多数あり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。
本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。
論文 参考訳(メタデータ) (2024-04-11T17:09:28Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Revealing Weaknesses of Vietnamese Language Models Through Unanswerable
Questions in Machine Reading Comprehension [2.7528170226206443]
本稿では,現在のベトナム語モノリンガルモデルの言語弱さと強みを包括的に分析する。
またベトナムのMachine Readingベンチマークにおけるアーティファクトの存在を明らかにした。
提案した修正は,解決不可能な質問の品質向上に役立つ。
論文 参考訳(メタデータ) (2023-03-16T20:32:58Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。