論文の概要: Bielik v3 Small: Technical Report
- arxiv url: http://arxiv.org/abs/2505.02550v1
- Date: Mon, 05 May 2025 10:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.652186
- Title: Bielik v3 Small: Technical Report
- Title(参考訳): Bielik v3 Small: テクニカルレポート
- Authors: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej,
- Abstract要約: ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.
- Abstract(参考訳): ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルにより、より小さく、最適化されたアーキテクチャは、はるかに少ない計算資源を必要としながら、はるかに大きなアーキテクチャに匹敵する性能を達成できることが示される。
このアプローチには,トークン効率を大幅に向上するカスタムポーランドトークンライザ(APT4),命令型間の学習のバランスをとるための重み付き命令のクロスエントロピー損失,トレーニングの進捗に応じて動的に調整する適応学習率など,いくつかの重要なイノベーションが含まれている。
Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, Polish Medical Leaderboardなど,さまざまなベンチマークが対象だ。
4.5Bパラメータモデルは2~3倍の大きさのモデルと競合する結果を得る一方、1.5Bモデルは極めてコンパクトなプロファイルにもかかわらず強い性能を提供する。
これらの進歩は、表現の少ない言語でパラメータ効率の高い言語モデリングのための新しいベンチマークを確立し、リソース制約のあるアプリケーションでは、高品質なポーランド語AIがよりアクセスしやすいようにしている。
関連論文リスト
- Bielik 11B v2 Technical Report [0.0]
Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
論文 参考訳(メタデータ) (2025-05-05T07:03:41Z) - Efficient Language Adaptive Pre-training: Extending State-of-the-Art
Large Language Models for Polish [0.0]
本研究では,ポーランド語文を生成するための基礎言語モデル (LLM) の微調整の可能性について検討する。
最初のステップはLanguage Adaptive Pre-training (LAPT)で、2億7600万のポーランドのトークンからなる3.11GBの高品質データセットをトレーニングする。
訓練されたCurie-7B-v1は、デコーダベースポーランドモデルの中で、最低パープレクティリティ3.02のポーランド語テキストを生成するだけでなく、最高のポーランド語エンコーダ-デコーダモデルの性能と密接に競合する。
論文 参考訳(メタデータ) (2024-02-15T07:17:10Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。