論文の概要: GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture
- arxiv url: http://arxiv.org/abs/2506.09440v1
- Date: Wed, 11 Jun 2025 06:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.600893
- Title: GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture
- Title(参考訳): GigaChat Family: エキスパートアーキテクチャの混合による効率的なロシア語モデリング
- Authors: GigaChat team, Mamedov Valentin, Evgenii Kosarev, Gregory Leleytner, Ilya Shchuckin, Valeriy Berezovskiy, Daniil Smirnov, Dmitry Kozlov, Sergei Averkiev, Lukyanenko Ivan, Aleksandr Proshunin, Ainur Israfilova, Ivan Baskov, Artem Chervyakov, Emil Shakirov, Mikhail Kolesov, Daria Khomich, Darya Latortseva, Sergei Porkhun, Yury Fedorov, Oleg Kutuzov, Polina Kudriavtseva, Sofiia Soldatova, Kolodin Egor, Stanislav Pyatkin, Dzmitry Menshykh, Grafov Sergei, Eldar Damirov, Karlov Vladimir, Ruslan Gaitukiev, Arkadiy Shatenov, Alena Fenogenova, Nikita Savushkin, Fedor Minkin,
- Abstract要約: 本稿では,ロシア大言語モデル(LLM)のGigaChatファミリーを紹介する。
モデルアーキテクチャ、事前学習プロセス、および設計選択をガイドするための実験に関する詳細なレポートを提供する。
本稿では,API,Telegramボット,Webインターフェースを通じてアクセス可能なトップパフォーマンスモデルのシステムデモを示す。
- 参考スコア(独自算出の注目度): 24.006981776597147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative large language models (LLMs) have become crucial for modern NLP research and applications across various languages. However, the development of foundational models specifically tailored to the Russian language has been limited, primarily due to the significant computational resources required. This paper introduces the GigaChat family of Russian LLMs, available in various sizes, including base models and instruction-tuned versions. We provide a detailed report on the model architecture, pre-training process, and experiments to guide design choices. In addition, we evaluate their performance on Russian and English benchmarks and compare GigaChat with multilingual analogs. The paper presents a system demonstration of the top-performing models accessible via an API, a Telegram bot, and a Web interface. Furthermore, we have released three open GigaChat models in open-source (https://huggingface.co/ai-sage), aiming to expand NLP research opportunities and support the development of industrial solutions for the Russian language.
- Abstract(参考訳): ジェネレーティブ・大型言語モデル(LLM)は、様々な言語にわたる現代のNLP研究や応用に欠かせないものとなっている。
しかし、ロシア語に特化された基礎モデルの開発は、主に膨大な計算資源を必要とするため、制限されている。
本稿では、ベースモデルや命令調整版など、さまざまなサイズで利用可能なロシアのLLMのGigaChatファミリを紹介する。
モデルアーキテクチャ、事前学習プロセス、および設計選択をガイドするための実験に関する詳細なレポートを提供する。
さらに,その性能をロシア語と英語のベンチマークで評価し,GigaChatと多言語類似語を比較した。
本稿では,API,Telegramボット,Webインターフェースを通じてアクセス可能なトップパフォーマンスモデルのシステムデモを示す。
さらに、NLP研究の機会を拡大し、ロシア語の産業ソリューションの開発を支援することを目的として、3つのGigaChatモデルをオープンソース(https://huggingface.co/ai-sage)でリリースしました。
関連論文リスト
- Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [2.9998889086656586]
本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。
マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-12T12:04:05Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian [44.13635168077528]
Vikhr (英語: Vikhr) は、ロシア語に特化して設計された、バイリンガルなオープンソースの命令フォローリング LLM のシリーズである。
Vikhrは、適応されたトークン化剤の語彙を特徴とし、全ての重みのトレーニングと指導の継続を行っている。
モデルの重み、命令セット、コードは公開されています。
論文 参考訳(メタデータ) (2024-05-22T18:58:58Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - A Family of Pretrained Transformer Language Models for Russian [31.1608981359276]
本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)にまたがる13個のロシアトランスフォーマーLMのコレクションを紹介する。
本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。
論文 参考訳(メタデータ) (2023-09-19T21:07:52Z) - Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。
それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。
事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-15T10:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。