論文の概要: Apertus LLM Family Expansion via Distillation and Quantization
- arxiv url: http://arxiv.org/abs/2605.29128v1
- Date: Wed, 27 May 2026 21:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.534244
- Title: Apertus LLM Family Expansion via Distillation and Quantization
- Title(参考訳): Apertus LLM family expansion by Distillation and Quantization (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Andrei Panferov, Davit Melikidze, Martin Jaggi, Dan Alistarh,
- Abstract要約: Apertus-v1.1 - 1.7Tの許容ライセンストークンでトレーニングされた最大4Bパラメータを持つ、蒸留されたモデルのファミリーを生成する。
我々は,幅広いハードウェアおよびシステム要件をカバーするために,提案手法のコスト効率と高い精度性能を示す。
- 参考スコア(独自算出の注目度): 68.33467651353419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The wide adoption of LLMs has led to their use in great variety of applications and scenarios, such as chatbot assistants and data annotation, creating the need for the models to satisfy certain budget and hardware constraints. This has led to the trend of LLMs being released in batches consisting of similar models of various sizes for the family of models to adhere to as wide of a range of constraints as possible. In this paper, we validate distillation and quantization as a cost-effective way to expand model families to new sizes and hardware formats. Based on the open-recipe Apertus 8B LLM, we produce Apertus-v1.1 - a distilled family of models with up to 4B parameters trained on 1.7T permissive license tokens. We demonstrate cost-efficiency and strong accuracy performance of our approach for covering large ranges of hardware and systems requirements.
- Abstract(参考訳): LLMの広範な採用により、チャットボットアシスタントやデータアノテーションなど、さまざまなアプリケーションやシナリオで利用され、特定の予算やハードウェア制約を満たすためのモデルの必要性が生まれている。
この結果、LLMは様々なサイズの類似モデルからなるバッチでリリースされ、モデル群は可能な限り広範囲の制約に従うようになった。
本稿では,モデルファミリを新しいサイズやハードウェア形式に拡張する上で,コスト効率のよい方法として,蒸留と量子化を検証する。
Apertus-v1.1は、1.7Tの許容ライセンストークンでトレーニングされた最大4Bパラメータを持つ蒸留されたモデルのファミリーである。
我々は,幅広いハードウェアおよびシステム要件をカバーするために,提案手法のコスト効率と高い精度性能を示す。
関連論文リスト
- Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models [10.34623505096336]
一般向けQwen2.5モデルから派生した蒸留軽量言語モデル(LLM)のファミリーであるDistilQwen2.5を紹介する。
これらのモデルは、オリジナルのモデルと比較して、強化された命令追従能力を示す。
実用的な使用を容易にするため、DistilQwen2.5のモデルをオープンソースコミュニティにリリースしました。
論文 参考訳(メタデータ) (2025-04-21T11:26:02Z) - MLKV: Efficiently Scaling up Large Embedding Model Training with Disk-based Key-Value Storage [22.848456481878568]
本稿では,MLKVを提案する。MLKVは,組込みモデルトレーニングにおけるスケーラビリティの課題に対処するために設計された,効率的で再利用可能なデータストレージフレームワークである。
オープンソースのワークロードの実験では、MLKVは、産業的な強度を持つキーバリューストア上に構築されたオフロード戦略を1.6-12.6倍上回っている。
論文 参考訳(メタデータ) (2025-04-02T08:57:01Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。
LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。
我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。
我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。
ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文 参考訳(メタデータ) (2024-02-16T09:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。