論文の概要: Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian
- arxiv url: http://arxiv.org/abs/2405.13929v1
- Date: Wed, 22 May 2024 18:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:33:38.402835
- Title: Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian
- Title(参考訳): Vikhr: ロシアのオープンソースのインストラクションチューニング型大規模言語モデル
- Authors: Aleksandr Nikolich, Konstantin Korolev, Artem Shelmanov,
- Abstract要約: Vikhrは、ロシア語のための、最先端のオープンソースインストラクションチューニング LLM である。
ヴィフフルは、適応されたトークン化剤の語彙を特徴とし、全ての重みの訓練と指導の継続を行っている。
Vikhhr は、ロシアのオープンソース LLM の新たな状態を設定するだけでなく、特定のベンチマークでプロプライエタリなクローズドソースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 48.82445526176561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a surge in the development of various Large Language Models (LLMs). However, text generation for languages other than English often faces significant challenges, including poor generation quality and the reduced computational performance due to the disproportionate representation of tokens in model's vocabulary. In this work, we address these issues and introduce Vikhr, a new state-of-the-art open-source instruction-tuned LLM designed specifically for the Russian language. Unlike previous efforts for Russian that utilize computationally inexpensive LoRA adapters on top of English-oriented models, Vikhr features an adapted tokenizer vocabulary and undergoes the continued pre-training and instruction tuning of all weights. This approach not only enhances the model's performance but also significantly improves its computational and contextual efficiency. The remarkable performance of Vikhr across various Russian-language benchmarks can also be attributed to our efforts in expanding instruction datasets and corpora for continued pre-training. Vikhr not only sets the new state of the art among open-source LLMs for Russian, but even outperforms some proprietary closed-source models on certain benchmarks. The model weights, instruction sets, and code are publicly available
- Abstract(参考訳): 様々な大規模言語モデル(LLM)の開発が急増している。
しかし、英語以外の言語のテキスト生成は、しばしば、生成品質の低下や、モデルの語彙におけるトークンの不均等な表現による計算性能の低下など、重大な課題に直面している。
本研究では,これらの問題に対処し,ロシア語に特化して設計された,最先端のオープンソース命令付きLLMであるVikhrを紹介する。
算術的に安価なLoRAアダプタを英語指向のモデルで使用するロシアの従来の取り組みとは異なり、Vikhrは適応されたトークン化子語彙を特徴とし、全ての重みの事前訓練と命令チューニングを継続している。
このアプローチはモデルの性能を高めるだけでなく、計算と文脈の効率を大幅に改善する。
さまざまなロシア語のベンチマークにおけるVikhrの顕著なパフォーマンスは、継続した事前トレーニングのための命令データセットとコーパスの拡大への取り組みにも影響します。
Vikhrは、ロシアのオープンソースLLMの中で、新しい最先端の技術を設定しているだけでなく、特定のベンチマークでプロプライエタリなクローズドソースモデルよりも優れています。
モデルウェイト、命令セット、コードは公開されています
関連論文リスト
- GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。
それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。
事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-15T10:10:34Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。