論文の概要: Scaling Up Efficient Small Language Models Serving and Deployment for Semantic Job Search
- arxiv url: http://arxiv.org/abs/2510.22101v1
- Date: Sat, 25 Oct 2025 00:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.821549
- Title: Scaling Up Efficient Small Language Models Serving and Deployment for Semantic Job Search
- Title(参考訳): セマンティックジョブ検索のための効率の良い小言語モデルのスケールアップと展開
- Authors: Kayhan Behdin, Qingquan Song, Sriram Vasudevan, Jian Sheng, Xiaojing Ma, Z Zhou, Chuanrui Zhu, Guoyao Li, Chanh Nguyen, Sayan Ghosh, Hejian Sang, Ata Fatahi Baarzi, Sundara Raman Ramachandran, Xiaoqing Wang, Qing Lan, Vinay Y S, Qi Guo, Caleb Johnson, Zhipeng Wang, Fedor Borisyuk,
- Abstract要約: 大言語モデル(LLM)は、関連性ランキングやセマンティックサーチなどの予測タスクに適用した場合、印象的な品質を示す。
しかし、そのようなLSMの展開は、厳格なレイテンシとスループットの要求がある業界アプリケーションにとって違法に高価である。
本稿では,LinkedInのセマンティック検索アプリケーションに対して,純粋にテキストベースのデコーダのみを用いたSLM(Small Language Model)の開発から学んだ教訓と効率性について述べる。
- 参考スコア(独自算出の注目度): 12.891315513255527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive quality when applied to predictive tasks such as relevance ranking and semantic search. However, deployment of such LLMs remains prohibitively expensive for industry applications with strict latency and throughput requirements. In this work, we present lessons and efficiency insights from developing a purely text-based decoder-only Small Language Model (SLM) for a semantic search application at LinkedIn. Particularly, we discuss model compression techniques such as pruning that allow us to reduce the model size by up to $40\%$ while maintaining the accuracy. Additionally, we present context compression techniques that allow us to reduce the input context length by up to $10$x with minimal loss of accuracy. Finally, we present practical lessons from optimizing the serving infrastructure for deploying such a system on GPUs at scale, serving millions of requests per second. Taken together, this allows us to increase our system's throughput by $10$x in a real-world deployment, while meeting our quality bar.
- Abstract(参考訳): 大言語モデル(LLM)は、関連性ランキングやセマンティックサーチなどの予測タスクに適用した場合、印象的な品質を示す。
しかし、そのようなLSMの展開は、厳格なレイテンシとスループットの要求がある業界アプリケーションにとって違法に高価である。
本研究では,LinkedIn のセマンティック検索アプリケーションに対して,純粋にテキストベースのデコーダ専用小言語モデル (SLM) の開発から学んだ教訓と効率性について述べる。
特に, プルーニングなどのモデル圧縮技術について論じ, 精度を維持しつつ, モデルサイズを最大40 %まで削減することができる。
さらに,入力コンテキスト長を最大10ドルxまで削減し,精度の低下を最小限に抑えるコンテキスト圧縮手法を提案する。
最後に、そのようなシステムをGPU上に大規模にデプロイするためのサービスインフラストラクチャの最適化から実践的な教訓を示し、毎秒数百万のリクエストを処理します。
これにより、実際のデプロイメントにおいて、品質バーを満たしながら、システムのスループットを10ドル増すことができます。
関連論文リスト
- Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Aggressive Post-Training Compression on Extremely Large Language Models [32.589344168888914]
モデルのサイズを減らすためには、攻撃的な後トレーニングモデル圧縮が必要である。
本稿では,0.7領域以上で8ビット未満の量子化を実現する新しいネットワーク切断技術を提案する。
論文 参考訳(メタデータ) (2024-09-30T08:47:17Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。