論文の概要: Bielik 11B v3: Multilingual Large Language Model for European Languages
- arxiv url: http://arxiv.org/abs/2601.11579v1
- Date: Tue, 30 Dec 2025 18:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.768501
- Title: Bielik 11B v3: Multilingual Large Language Model for European Languages
- Title(参考訳): Bielik 11B v3: ヨーロッパ言語のための多言語大言語モデル
- Authors: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej,
- Abstract要約: Bielik 11B v3はポーランド語向けに最適化された最先端の言語モデルである。
深度アップスケーリングによって11Bパラメータにスケールされる。
他のポーランド語モデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 1.7741953323822284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bielik 11B v3, a state-of-the-art language model highly optimized for the Polish language, while also maintaining strong capabilities in other European languages. This model extends the Mistral 7B v0.2 architecture, scaled to 11B parameters via depth up-scaling. Its development involved a comprehensive four-stage training pipeline: continuous pre-training, supervised fine-tuning (SFT), Direct Preference Optimization (DPO), and reinforcement learning. Comprehensive evaluations demonstrate that Bielik 11B v3 achieves exceptional performance. It significantly surpasses other specialized Polish language models and outperforms many larger models (with 2-6 times more parameters) on a wide range of tasks, from basic linguistic understanding to complex reasoning. The model's parameter efficiency, combined with extensive quantization options, allows for effective deployment across diverse hardware configurations. Bielik 11B v3 not only advances AI capabilities for the Polish language but also establishes a new benchmark for developing resource-efficient, high-performance models for less-represented languages.
- Abstract(参考訳): ポーランド語に高度に最適化された最先端の言語モデルであるBielik 11B v3を紹介します。
このモデルはMistral 7B v0.2アーキテクチャを拡張し、深度アップスケーリングにより11Bパラメータに拡張した。
その開発には、継続的事前訓練、教師付き微調整(SFT)、直接選好最適化(DPO)、強化学習という4段階の総合的な訓練パイプラインが含まれていた。
総合的な評価は、Bielik 11B v3が例外的な性能を達成することを示している。
他の専門的なポーランド語モデルを大きく上回り、基本的な言語理解から複雑な推論に至るまで、幅広いタスクにおいて(パラメータが2~6倍)多くの大きなモデルを上回る。
モデルのパラメータ効率は、広範囲の量子化オプションと組み合わせることで、様々なハードウェア構成にまたがる効果的なデプロイメントを可能にします。
Bielik 11B v3は、ポーランド語のAI能力を向上するだけでなく、リソース効率の低い言語向けの高性能モデルを開発するための新しいベンチマークも確立している。
関連論文リスト
- Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models [11.719190735841407]
大規模な言語モデルは、言語間で不均一なパフォーマンスを示す。
表現不足言語におけるLLMの単言語機能向上のためのフレームワークを提案する。
言語活性化確率エントロピーを用いて言語特異的ニューロンを同定し,これらのニューロンに付随する重みのみを微細トンネルで同定する。
論文 参考訳(メタデータ) (2025-10-15T14:14:49Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Bielik v3 Small: Technical Report [0.0]
ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-05-05T10:39:51Z) - Bielik 11B v2 Technical Report [0.0]
Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
論文 参考訳(メタデータ) (2025-05-05T07:03:41Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [57.37123046817781]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
LLaVA-v1.5-13Bは13.4%、LLaVA-v1.6-34Bは20.3%、Qwen-VLは16.7%向上した。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。