Fugu-MT 論文翻訳(概要): Towards Pareto Optimal Throughput in Small Language Model Serving

論文の概要: Towards Pareto Optimal Throughput in Small Language Model Serving

arxiv url: http://arxiv.org/abs/2404.03353v1
Date: Thu, 4 Apr 2024 10:45:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 15:01:15.974435
Title: Towards Pareto Optimal Throughput in Small Language Model Serving
Title（参考訳）: 小言語モデルにおけるパレート最適処理に向けて
Authors: Pol G. Recasens, Yue Zhu, Chen Wang, Eun Kyung Lee, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral,
Abstract要約: SLM(Small Language Models)は、リソース制約のあるユーザに対して、新たな機会を提供する。本研究では,SLM推論を性能およびエネルギーレベルで評価するための一連の実験について述べる。
参考スコア（独自算出の注目度）: 4.497936996651617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have revolutionized the state-of-the-art of many different natural language processing tasks. Although serving LLMs is computationally and memory demanding, the rise of Small Language Models (SLMs) offers new opportunities for resource-constrained users, who now are able to serve small models with cutting-edge performance. In this paper, we present a set of experiments designed to benchmark SLM inference at performance and energy levels. Our analysis provides a new perspective in serving, highlighting that the small memory footprint of SLMs allows for reaching the Pareto-optimal throughput within the resource capacity of a single accelerator. In this regard, we present an initial set of findings demonstrating how model replication can effectively improve resource utilization for serving SLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの異なる自然言語処理タスクの最先端技術に革命をもたらした。 LLMは計算量とメモリ需要があるが、Small Language Models(SLM)の台頭は、リソース制約のあるユーザにとって新たな機会を提供する。本稿では,SLM推論を性能およびエネルギーレベルでベンチマークするための一連の実験について述べる。我々の分析は、SLMの小さなメモリフットプリントによって、単一のアクセラレーターのリソース容量内でパレート最適スループットに到達することができる、という新しい視点を提供する。そこで本研究では,モデル複製がSLMの資源利用を効果的に改善できることを示す。

関連論文リスト

SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment [45.23402877397396]
SLMQuantは,Small Language Models (SLM) に適用した場合に圧縮技術を評価するための最初の体系的ベンチマークである。我々は,SLM上での最先端量子化手法の動作を解析する。有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
論文参考訳（メタデータ） (2025-11-17T06:20:33Z)
Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文参考訳（メタデータ） (2025-07-03T20:32:36Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。 Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文参考訳（メタデータ） (2025-02-14T01:39:45Z)
Small Language Models (SLMs) Can Still Pack a Punch: A survey [2.7309692684728617]
約160の論文のサーベイでは、10億から80億のパラメータ範囲でSLM(Small Language Models)のファミリーを提示している。我々は,タスクに依存しない汎用SLM,タスク固有のSLM,および,コミュニティがモデルを構築するためのガイドとなるSLMを作成する技術について検討する。
論文参考訳（メタデータ） (2025-01-03T19:53:57Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Stacking Small Language Models for Generalizability [0.0]
大規模言語モデル(LLM)は、異なる自然言語ベンチマークで強いパフォーマンスを一般化する。本稿では,言語モデルの微調整スタック (FSLM) と呼ばれる新しいアプローチを提案する。特定のタスクを実行するために各SLMを微調整することにより、このアプローチは、特定のSLMが責任を負う複数の低レベルステップに高レベル推論を分解する。その結果、FSLMはトレーニングと推論のコストを低減し、各SLMが後続のSLMと自然言語を介して通信するので、モデルの解釈性を向上させることができる。
論文参考訳（メタデータ） (2024-10-21T01:27:29Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (2024-01-04T18:53:01Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。