論文の概要: Bielik 11B v2 Technical Report
- arxiv url: http://arxiv.org/abs/2505.02410v2
- Date: Thu, 08 May 2025 22:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 12:48:53.978434
- Title: Bielik 11B v2 Technical Report
- Title(参考訳): Bielik 11B v2技術報告
- Authors: Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas,
- Abstract要約: Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bielik 11B v2, a state-of-the-art language model optimized for Polish text processing. Built on the Mistral 7B v0.2 architecture and scaled to 11B parameters using depth up-scaling, this model demonstrates exceptional performance across Polish language benchmarks while maintaining strong cross-lingual capabilities. We introduce two key technical innovations: Weighted Instruction Cross-Entropy Loss, which optimizes learning across diverse instruction types by assigning quality-based weights to training examples, and Adaptive Learning Rate, which dynamically adjusts based on context length. Comprehensive evaluation across multiple benchmarks demonstrates that Bielik 11B v2 outperforms many larger models, including those with 2-6 times more parameters, and significantly surpasses other specialized Polish language models on tasks ranging from linguistic understanding to complex reasoning. The model's parameter efficiency and extensive quantization options enable deployment across various hardware configurations, advancing Polish language AI capabilities and establishing new benchmarks for resource-efficient language modeling in less-represented languages.
- Abstract(参考訳): ポーランド語テキスト処理に最適化された最先端言語モデルであるBielik 11B v2を提案する。
Mistral 7B v0.2アーキテクチャに基づいて構築され、Deep-Up-scalingを使用して11Bパラメータに拡張されたこのモデルは、強力な言語間機能を維持しながらポーランド語のベンチマークで例外的なパフォーマンスを示す。
トレーニング例に品質ベースの重みを割り当てることで、多様な指導タイプにわたる学習を最適化する重み付き教育のクロスエントロピー損失と、文脈長に基づいて動的に調整する適応学習率の2つの技術革新を紹介した。
複数のベンチマークの総合的な評価は、Bielik 11B v2が2~6倍のパラメータを持つモデルよりも優れており、言語理解から複雑な推論に至るまでのタスクにおいて、他のポーランド語モデルよりもはるかに優れていることを示している。
モデルのパラメータ効率と広範な量子化オプションにより、さまざまなハードウェア構成のデプロイが可能になり、ポーランド語のAI能力が向上し、表現の少ない言語でリソース効率の高い言語モデリングのための新しいベンチマークが確立される。
関連論文リスト
- Bielik v3 Small: Technical Report [0.0]
ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-05-05T10:39:51Z) - Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis [0.808899919316203]
言語間ABSAのための新しいフレームワークであるMulti-Scale and Multi-Objective Optimization (MSMO)を提案する。
我々は、異なる文脈環境におけるアスペクト項の特徴を整合させて、言語間の文レベルとアスペクトレベルのアライメントを実現する。
その結果,MSMOは複数の言語やモデルにまたがって最先端の性能を実現することで,言語間ABSAを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-19T13:43:33Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。