論文の概要: EngGPT2: Sovereign, Efficient and Open Intelligence
- arxiv url: http://arxiv.org/abs/2603.16430v1
- Date: Tue, 17 Mar 2026 12:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.262847
- Title: EngGPT2: Sovereign, Efficient and Open Intelligence
- Title(参考訳): EngGPT2: ソブリン、効率的、オープンインテリジェンス
- Authors: G. Ciarfaglia, A. Rosanova, S. Cipolla, J. Bartoli, A. Di Domenico, C. Fioroni, A. Fontana, M. R. Scoleri, M. I. Mone, D. Franchi, M. C. Del Gaudio, F. Picariello, M. Gabusi, S. Bonura, V. Morreale, I. Bailo,
- Abstract要約: EngGPT2はSovereign、Efficient、Openモデルとして構築されている。
Qwen3の36TやLlama3の15Tよりも少ない2.5兆のトークンでトレーニングされています。
MMLU-Pro、GSM8K、IFEval、HumanEvalなど、主要なベンチマークのパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: EngGPT2-16B-A3B is the latest iteration of Engineering Group's Italian LLM and it's built to be a Sovereign, Efficient and Open model. EngGPT2 is trained on 2.5 trillion tokens - less than Qwen3's 36T or Llama3's 15T - and delivers performance on key benchmarks, including MMLU-Pro, GSM8K, IFEval and HumanEval, comparable to dense models in the 8B-16B range, while requiring one-fifth to half of the inference power, and between one-tenth to one-sixth of the training data and consequent needed training power. Designed as a trained-from-scratch Mixture-of-Experts (MoE) architecture, EngGPT2 features 16 billion parameters with 3 billion active per inference, with expert sizes positioned between those used in GPT-OSS and Qwen3. Approximately 25% of its training corpus consists of Italian-language data, to deliver strong capabilities for European and Italian NLP tasks among models of similar scale. This efficiency aims to position EngGPT2 as a key contributor to the growing portfolio of open-weight European models, combining performance and efficiency with full alignment to the EU AI Act. EngGPT2 is also a single model capable of multiple reasoning modes: non-reasoning, reasoning in Italian or English, and turbo-reasoning (a concise, bullet-point style reasoning available in both languages designed for real-time reasoning use cases). EngGPT2 aims to set a new standard for resource-conscious, high-performance LLMs tailored to European and Italian contexts.
- Abstract(参考訳): EngGPT2-16B-A3Bは、Engineering Groupのイタリア式LLMの最新版で、Sovereign、Efficient、Openモデルとして作られている。
EngGPT2 は Qwen3 の 36T や Llama3 の 15T より少ない 2.5 兆個のトークンでトレーニングされており、MMLU-Pro, GSM8K, IFEval, HumanEval といった主要なベンチマークでパフォーマンスが向上している。
トレーニング済みのMixture-of-Experts (MoE)アーキテクチャとして設計されたEngGPT2は、GPT-OSSとQwen3で使用される専門家のサイズで、100億のパラメータと30億のアクティブな推論を持つ。
トレーニングコーパスの約25%は、同様のスケールのモデル間で、ヨーロッパとイタリアのNLPタスクに強力な機能を提供するために、イタリア語のデータで構成されている。
この効率性は、EngGPT2を、EU AI Actに完全準拠したパフォーマンスと効率を組み合わせた、オープンウェイトな欧州モデルのポートフォリオの重要コントリビュータとして位置付けることを目的としています。
EngGPT2は、非推論、イタリア語または英語での推論、ターボ推論(リアルタイム推論のユースケース用に設計された両方の言語で使用できる簡潔で弾頭式の推論)など、複数の推論モードが可能な単一のモデルである。
EngGPT2 は、ヨーロッパやイタリアの状況に合わせて、リソースを意識した高性能な LLM の新たな標準を設定することを目的としている。
関連論文リスト
- STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - Gamayun's Path to Multilingual Mastery: Cost-Efficient Training of a 1.5B-Parameter LLM [30.381516759139203]
2.5Tトークンのスクラッチから完全にトレーニングされた多言語言語モデルであるGamayunを紹介します。
我々のモデルは12言語をサポートし、特にロシア語に焦点を当てています。
高度なSTEM以外のほとんどのタスクでQwen3(36Tトークン)にマッチまたは超える。
論文 参考訳(メタデータ) (2025-12-25T08:52:23Z) - MobileLLM-Pro Technical Report [28.511762884727883]
MobileLLM-Proは、デバイス上でのデプロイメントに最適化された1ビリオンパラメータ言語モデルである。
Gemma 3-1BとLlama 3.2-1Bを11の標準ベンチマークで大幅に上回っている。
最大128,000トークンのコンテキストウィンドウをサポートし、4ビット量子化時の小さなパフォーマンスレグレッションのみを表示する。
論文 参考訳(メタデータ) (2025-11-10T05:28:31Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。