Fugu-MT 論文翻訳(概要): SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

論文の概要: SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

arxiv url: http://arxiv.org/abs/2507.20984v2
Date: Wed, 30 Jul 2025 06:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 11:57:45.842063
Title: SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
Title（参考訳）: SmallThinker: ローカルデプロイメント用にネイティブにトレーニングされた、効率的な大規模言語モデルのファミリー
Authors: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen,
Abstract要約: SmallThinkerは、ローカルデバイス向けに設計された大型言語モデル(LLM)のファミリーである。本研究では,微細なMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2レベルスパース構造を提案する。我々はSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースした。
参考スコア（独自算出の注目度）: 5.141876811512978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Abstract（参考訳）: フロンティアの大規模言語モデル(LLM)は機能境界を押し続けているが、そのデプロイメントはGPUベースのクラウドインフラストラクチャに限定されている。我々は、ローカルデバイスのユニークな制約(弱い計算能力、限られたメモリ、遅いストレージ)に対して、LLMのファミリーであるSmallThinkerで、このパラダイムに挑戦する。クラウド用に構築された既存のモデルを主に圧縮する従来のアプローチとは異なり、これらの制限の中で成長するSmallThinkerをゼロから設計する。私たちのイノベーションは、制約を設計原則に変換するデプロイメント対応アーキテクチャにあります。まず,微細なMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2段階のスパース構造を導入し,モデル容量を犠牲にすることなく計算要求を大幅に削減する。第二に、遅いストレージのI/Oボトルネックを克服するために、我々は、我々の共同設計した推論エンジンが、注意を計算しながら、ストレージから専門家パラメータをプリフェッチし、デバイス上の推論を損なうようなストレージ遅延を効果的に隠すことができるように、留意前ルータを設計する。第3に,NPE-RoPEハイブリッドスパースアテンション機構を用いてKVキャッシュ要求をスラッシュする。我々はSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースした。 Q4_0量子化では、どちらのモデルも通常の消費者向けCPUでは20トークン/秒を超え、メモリは1GBと8GBしか消費しない。 SmallThinkerはhf.co/PowerInfer/SmallThinker-4BA0.6B-Instructとhf.co/PowerInfer/SmallThinker-21BA3B-Instructで公開されている。

関連論文リスト

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。 InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。 InstInferがロングシーケンス推論のためのスループットを改善
論文参考訳（メタデータ） (2024-09-08T06:06:44Z)
MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-06-07T14:49:22Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)
GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference [1.6534387701595552]
本稿では,最先端BERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を圧縮するモデル量子化手法であるGOBOを提案する。他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。 GOBOアーキテクチャは計算時でも重量の大部分を3bで維持する。
論文参考訳（メタデータ） (2020-05-08T03:59:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。