論文の概要: Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.14714v1
- Date: Thu, 22 Feb 2024 17:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:26:27.483707
- Title: Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models
- Title(参考訳): 多言語大言語モデルへの効率的な語彙拡張
- Authors: Seungduk Kim, Seungtaek Choi, Myeongho Jeong
- Abstract要約: 本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 9.359647125218359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report introduces \texttt{EEVE-Korean-v1.0}, a Korean adaptation of
large language models that exhibit remarkable capabilities across English and
Korean text understanding. Building on recent highly capable but
English-centric LLMs, such as SOLAR-10.7B and Phi-2, where non-English texts
are inefficiently processed with English-centric tokenizers, we present an
efficient and effective vocabulary expansion (EEVE) method, which encompasses
parameter freezing and subword initialization. In contrast to previous efforts
that believe new embeddings require trillions of training tokens, we show that
our method can significantly boost non-English proficiency within just 2
billion tokens. Surpassing most instruction-tuned LLMs on the Open Ko-LLM
Leaderboard, as of January 2024, our model \texttt{EEVE-Korean-10.8B-v1.0}
ranks as the leading Korean pre-trained model in the open-source community,
according to Hugging Face's leaderboard. We open-source our models on
Huggingface to empower the open research community in various languages.
- Abstract(参考訳): 本報告では, 韓国語による大言語モデルの適応版である「texttt{EEVE-Korean-v1.0}」を紹介する。
SOLAR-10.7B や Phi-2 のような近年の高機能な英語中心の LLM 上に構築され、非英語テキストを英語中心のトークン化器で非効率に処理する手法として、パラメータ凍結とサブワード初期化を含む効率的な語彙展開(EEVE)法を提案する。
新たな埋め込みには数十兆のトレーニングトークンが必要であるという従来の取り組みとは対照的に,本手法は20億トークンで非英語の習熟度を著しく向上させることができることを示す。
huging faceのleaderboardによると、2024年1月時点で、オープンko-llmリーダーボードのほとんどの命令調整されたllmを上回っており、我々のモデルである \texttt{eeve-korean-10.8b-v1.0} は、オープンソースコミュニティにおける韓国の事前訓練済みモデルとして位置づけられている。
私たちはHuggingfaceでモデルをオープンソース化し、さまざまな言語のオープンリサーチコミュニティを力づけています。
関連論文リスト
- RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。
GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-05-24T15:30:41Z) - KIT-19: A Comprehensive Korean Instruction Toolkit on 19 Tasks for Fine-Tuning Korean Large Language Models [0.0]
textitKIT-19は、韓国のNLPタスクのための19の既存のオープンソースデータセットからなる、命令フォーマットで作成されたデータセットである。
実験の結果,textitKIT-19で訓練したモデルは,既存の韓国のLLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-25T06:15:21Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean
Language Models [6.907247943327277]
Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。
多言語韓国語モデルは、自然界において多言語的ではなく、特定の焦点を表わすものである。
論文 参考訳(メタデータ) (2023-06-04T04:04:04Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - KoreALBERT: Pretraining a Lite BERT Model for Korean Language
Understanding [6.414554168135807]
KoreALBERTは韓国語理解のための単言語ALBERTモデルである。
トレーニング済みのPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。
論文 参考訳(メタデータ) (2021-01-27T12:48:53Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。