論文の概要: Vikhr: Constructing a State-of-the-art Bilingual Open-Source Instruction-Following Large Language Model for Russia
- arxiv url: http://arxiv.org/abs/2405.13929v3
- Date: Sat, 26 Oct 2024 08:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:34.855267
- Title: Vikhr: Constructing a State-of-the-art Bilingual Open-Source Instruction-Following Large Language Model for Russia
- Title(参考訳): Vikhr: 最先端のバイリンガルオープンソースインストラクションの構築 - ロシアにおける大規模言語モデルの構築
- Authors: Aleksandr Nikolich, Konstantin Korolev, Sergei Bratchikov, Igor Kiselev, Artem Shelmanov,
- Abstract要約: Vikhrは、ロシアの言語に特化して設計された、最先端のバイリンガルなオープンソース命令フォローリング LLM である。
VikhrはMistral LLMシリーズの名称で、「強風」を意味する。
- 参考スコア(独自算出の注目度): 44.13635168077528
- License:
- Abstract: There has been a surge in developing various Large Language Models (LLMs). However, text generation for languages other than English often faces significant challenges, including poor generation quality and reduced computational performance due to the disproportionate representation of tokens in the model's vocabulary. In this work, we address these issues by developing a pipeline for adapting English-oriented pre-trained models to other languages and constructing efficient bilingual LLMs. Using this pipeline, we construct Vikhr, a state-of-the-art bilingual open-source instruction-following LLM designed specifically for the Russian language. "Vikhr" refers to the name of the Mistral LLM series and means a "strong gust of wind." Unlike previous Russian-language models that typically rely on LoRA adapters on top of English-oriented models, sacrificing performance for lower training costs, Vikhr features an adapted tokenizer vocabulary and undergoes continued pre-training and instruction tuning of all weights. This not only enhances the model's performance but also significantly improves its computational and contextual efficiency. The remarkable performance of Vikhr across various Russian-language benchmarks can also be attributed to our efforts in expanding instruction datasets and corpora for continued pre-training. Vikhr not only sets a new state of the art among open-source LLMs for Russian but even outperforms some proprietary closed-source models on certain benchmarks. The model weights, instruction sets, and code are publicly available.
- Abstract(参考訳): 様々な大規模言語モデル(LLM)の開発が急増している。
しかし、英語以外の言語のテキスト生成は、しばしば、モデルの語彙におけるトークンの不均等な表現のために、生成品質の低下や計算性能の低下など、重大な課題に直面している。
本研究では、英語指向の事前学習モデルを他の言語に適応させるパイプラインを開発し、効率的なバイリンガルLLMを構築することにより、これらの課題に対処する。
このパイプラインを用いて、ロシアの言語に特化して設計された、最先端のバイリンガルなオープンソース命令追従型LLMであるVikhrを構築する。
ヴィクラー(Vikhr)とは、Mistral LLMシリーズの名称で、「強い風のガス」を意味する。
英語指向のモデルにLoRAアダプターを頼りにしており、訓練コストを下げるためにパフォーマンスを犠牲にしている以前のロシア語モデルとは異なり、Vikhrは適応されたトークン化剤の語彙を特徴とし、全ての重量の事前訓練と訓練を継続する。
これにより、モデルの性能が向上するだけでなく、計算効率や文脈効率も大幅に向上する。
さまざまなロシア語のベンチマークにおけるVikhrの顕著なパフォーマンスは、継続した事前トレーニングのための命令データセットとコーパスの拡大への取り組みにも影響します。
Vikhr は、ロシア向けのオープンソース LLM の中で、新しい最先端の技術を設定しているだけでなく、特定のベンチマークでプロプライエタリなクローズドソースモデルよりも優れています。
モデルの重み、命令セット、コードは公開されています。
関連論文リスト
- Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。
英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。
能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:33:16Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。