論文の概要: NorwAI's Large Language Models: Technical Report
- arxiv url: http://arxiv.org/abs/2601.03034v1
- Date: Tue, 06 Jan 2026 14:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.966042
- Title: NorwAI's Large Language Models: Technical Report
- Title(参考訳): NorwAIの大規模言語モデル:技術報告
- Authors: Jon Atle Gulla, Peng Liu, Lemei Zhang,
- Abstract要約: NorwAIはノルウェー語や他のスカンジナビア語に特化されたモデルのファミリーを開発した。
これらのモデルは、スクラッチから事前訓練されるか、25B - 88.45Bトークンで継続的に事前訓練される。
このレポートは、モデルアーキテクチャ、トレーニングデータ、トークン化設計、微調整戦略、デプロイメント、評価に関する詳細なドキュメントを提供する。
- 参考スコア(独自算出の注目度): 4.325493041501939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Norwegian, spoken by approximately five million people, remains underrepresented in many of the most significant breakthroughs in Natural Language Processing (NLP). To address this gap, the NorLLM team at NorwAI has developed a family of models specifically tailored to Norwegian and other Scandinavian languages, building on diverse Transformer-based architectures such as GPT, Mistral, Llama2, Mixtral and Magistral. These models are either pretrained from scratch or continually pretrained on 25B - 88.45B tokens, using a Norwegian-extended tokenizer and advanced post-training strategies to optimize performance, enhance robustness, and improve adaptability across various real-world tasks. Notably, instruction-tuned variants (e.g., Mistral-7B-Instruct and Mixtral-8x7B-Instruct) showcase strong assistant-style capabilities, underscoring their potential for practical deployment in interactive and domain-specific applications. The NorwAI large language models are openly available to Nordic organizations, companies and students for both research and experimental use. This report provides detailed documentation of the model architectures, training data, tokenizer design, fine-tuning strategies, deployment, and evaluations.
- Abstract(参考訳): 約500万人が話していたノルウェー語は、自然言語処理(NLP)における最も重要なブレークスルーの多くで、いまだに不足している。
NorwAIのNorLLMチームは、GPT、Mistral、Llama2、Mixtral、Magistralといったトランスフォーマーベースのアーキテクチャをベースにした、ノルウェーや他のスカンジナビア語に特化されたモデルのファミリーを開発した。
これらのモデルは、スクラッチから事前訓練されるか、25B - 88.45Bトークンで継続的に事前訓練され、ノルウェー拡張トークン化器と高度なポストトレーニング戦略を使用して、パフォーマンスを最適化し、堅牢性を高め、様々な現実世界のタスクに適応性を向上させる。
特に、命令調整型(例えばMistral-7B-InstructとMixtral-8x7B-Instruct)は強力なアシスタントスタイルの機能を示し、対話型およびドメイン固有のアプリケーションに実際にデプロイする可能性を示している。
NorwAIの大規模言語モデルは、研究用と実験用の両方で、北欧の組織、企業、学生に公開されている。
このレポートは、モデルアーキテクチャ、トレーニングデータ、トークン化設計、微調整戦略、デプロイメント、評価に関する詳細なドキュメントを提供する。
関連論文リスト
- PLLuM: A Family of Polish Large Language Models [91.61661675434216]
ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。
本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。
モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
論文 参考訳(メタデータ) (2025-11-05T19:41:49Z) - Small Languages, Big Models: A Study of Continual Training on Languages of Norway [11.548845014405984]
大きな言語モデルのトレーニングには大量のデータが必要です。
本稿では,下流の性能を大幅に向上させる新しい3段階連続訓練手法を提案する。
ノルウェーのBokmral、Nynorsk、Northern S'amiに14億のパラメータを持つ新しい生成言語モデル(NorMistral-11B)をリリースする。
論文 参考訳(メタデータ) (2024-12-09T13:34:23Z) - Nyonic Technical Report [20.826424998392696]
Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。
モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
論文 参考訳(メタデータ) (2024-04-24T07:38:44Z) - Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7406091753529]
本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。
これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。
我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
論文 参考訳(メタデータ) (2024-03-30T15:38:54Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model [0.0]
国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
論文 参考訳(メタデータ) (2021-04-19T20:36:24Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。