論文の概要: Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language
- arxiv url: http://arxiv.org/abs/2603.11881v1
- Date: Thu, 12 Mar 2026 12:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.083199
- Title: Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language
- Title(参考訳): Bielik-Minitron-7B:ポーランド語のための構造化プルーニングと知識蒸留による大規模言語モデル圧縮
- Authors: Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej,
- Abstract要約: 本報告では、Bielik-11B-v3.0モデルの圧縮7.35BパラメータバージョンであるBielik-Minitron-7Bの作成について詳述する。
NVIDIA Minitronアプローチにインスパイアされた2段階圧縮手法を利用して、構造化されたハイブリッドプルーニングと知識蒸留を組み合わせることで、モデルのパラメータ数を33.4%削減した。
最終モデルでは,ベースラインモデルの性能の約90%を回復し,最大50%の高速化を実現した。
- 参考スコア(独自算出の注目度): 1.5944225617726497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report details the creation of Bielik-Minitron-7B, a compressed 7.35B parameter version of the Bielik-11B-v3.0 model, specifically optimized for European languages. By leveraging a two-stage compression methodology inspired by the NVIDIA Minitron approach, we combined structured hybrid pruning and knowledge distillation to reduce the model's parameter count by 33.4%, from 11.04B to 7.35B. We utilized the NVIDIA Model Optimizer for structural pruning and the NVIDIA NeMo Framework for logit-based distillation for quality recovery. Following distillation, the model underwent a rigorous alignment pipeline consisting of Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO-P), and Reinforcement Learning (GRPO). Our final model successfully recovered approximately 90% of the baseline model's performance while providing up to 50% inference speedup. This approach demonstrates an efficient pathway to create language models for less-represented languages, preserving the original model quality while reducing inference deployment costs.
- Abstract(参考訳): 本報告では、Belik-11B-v3.0モデルの圧縮7.35BパラメータバージョンであるBielik-Minitron-7Bの作成について詳述する。
NVIDIA Minitronアプローチにインスパイアされた2段階圧縮手法を利用して、構造化されたハイブリッドプルーニングと知識蒸留を組み合わせて、モデルのパラメータ数を11.04Bから7.35Bに33.4%削減した。
構造解析にはNVIDIA Model Optimizer,品質回復にはNVIDIA NeMo Frameworkを用いた。
蒸留後のモデルでは, スーパービジョンファインチューニング (SFT) , 直接選好最適化 (DPO-P) , 強化学習 (GRPO) からなる厳密なアライメントパイプラインが実施された。
最終的なモデルでは,ベースラインモデルの性能の約90%を回復し,最大50%の推論速度向上を実現した。
このアプローチは、表現の少ない言語のための言語モデルを作成するための効率的な経路を示し、推論のデプロイメントコストを削減しつつ、オリジナルのモデル品質を保存する。
関連論文リスト
- PLaMo 2 Technical Report [9.166942912957724]
本研究では,サンバをベースとしたハイブリッドアーキテクチャを特徴とする,日本語を対象とする大規模言語モデルであるPLaMo 2を紹介する。
PLaMo 2モデルは、日本語のベンチマークで最先端の結果を達成し、命令追従、言語流速、日本語特有の知識において、同様の大きさのオープンモデルよりも優れている。
論文 参考訳(メタデータ) (2025-09-05T08:17:59Z) - Bielik v3 Small: Technical Report [0.0]
ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-05-05T10:39:51Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。