論文の概要: Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series
- arxiv url: http://arxiv.org/abs/2604.10799v1
- Date: Sun, 12 Apr 2026 20:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.223985
- Title: Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series
- Title(参考訳): Bielik v3 7B および 11B シリーズにおけるトケナイザ最適化によるポーランド語モデリングの強化
- Authors: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej,
- Abstract要約: Bielik v3 PLシリーズは言語固有の大規模言語モデル(LLM)最適化の分野で重要なマイルストーンである。
本報告では、普遍的なMistralベースのトークン化から、ビエリク v3モデルのポーランド最適化語彙への遷移について詳述する。
- 参考スコア(独自算出の注目度): 1.7741953323822284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of the Bielik v3 PL series, encompassing both the 7B and 11B parameter variants, represents a significant milestone in the field of language-specific large language model (LLM) optimization. While general-purpose models often demonstrate impressive multilingual capabilities, they frequently suffer from a fundamental architectural inefficiency: the use of universal tokenizers. These tokenizers, typically designed to cover a broad spectrum of languages, often fail to capture the morphological nuances of specific languages like Polish, leading to higher fertility ratios, increased inference costs, and restricted effective context windows. This report details the transition from the universal Mistral-based tokenization to a dedicated Polish-optimized vocabulary for the Bielik v3 models, exploring the FOCUS-based embedding initialization, the multi-stage pretraining curriculum, and the subsequent post-training alignment involving Supervised Fine-Tuning, Direct Preference Optimization, and Reinforcement Learning through Group Relative Policy Optimization with verifiable rewards.
- Abstract(参考訳): Bielik v3 PLシリーズは、7Bパラメータと11Bパラメータの両方を含むもので、言語固有の大規模言語モデル(LLM)最適化の分野で重要なマイルストーンとなっている。
汎用モデルは印象的な多言語機能を示すことが多いが、基本的なアーキテクチャ上の非効率さに悩まされることが多い。
これらのトークン化剤は、典型的には広い範囲の言語をカバーするように設計されており、ポーランド語のような特定の言語の形態的ニュアンスを捉えるのに失敗し、高い出生率、推論コスト、制限された効果的なコンテキストウィンドウをもたらす。
本報告では、汎用的なMistralベースのトークン化から、Bielik v3モデルのポーランド語最適化語彙への移行、FOCUSベースの埋め込み初期化、多段階事前学習カリキュラム、そして、修正された微調整、直接選好最適化、グループ相対ポリシー最適化による強化学習を含むその後のトレーニングアライメントなどについて詳述する。
関連論文リスト
- LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation [51.071351994330605]
統一型マルチモーダル事前訓練は,単一の基礎モデル内での言語とビジョンを共同でモデル化するための,有望なパラダイムとして登場した。
既存のアプローチは暗黙的あるいは間接的なアライメント信号に大きく依存しており、マルチモーダル理解と生成を同時にサポートするのに最適である。
LVRPOは言語と視覚的表現を明確に整合させる言語-視覚的強化に基づく嗜好最適化フレームワークである。
論文 参考訳(メタデータ) (2026-03-29T13:38:21Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Bielik 11B v3: Multilingual Large Language Model for European Languages [1.7741953323822284]
Bielik 11B v3はポーランド語向けに最適化された最先端の言語モデルである。
深度アップスケーリングによって11Bパラメータにスケールされる。
他のポーランド語モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-12-30T18:35:15Z) - Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。
このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。
提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文 参考訳(メタデータ) (2025-09-29T22:03:11Z) - Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining [16.590296049892576]
本稿では,多言語データアロケーションを体系的に最適化する新しいフレームワークであるClimbを紹介する。
Climbの中核となるのは、言語間の相互作用を意識した言語比率を導入し、言語間の依存関係をキャプチャすることで、各言語の効果的なアロケーションを明示的に定量化している。
大規模な実験により、Climbは様々な多言語間相互作用を正確に測定できることを確認した。
論文 参考訳(メタデータ) (2025-09-19T03:34:34Z) - CM-Align: Consistency-based Multilingual Alignment for Large Language Models [84.19366314925593]
高品質な多言語嗜好データを構築するための一貫性に基づくデータ手法を提案する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
論文 参考訳(メタデータ) (2025-09-10T12:40:49Z) - Bielik 11B v2 Technical Report [0.0]
Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
論文 参考訳(メタデータ) (2025-05-05T07:03:41Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。