論文の概要: Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade offs
- arxiv url: http://arxiv.org/abs/2510.03847v1
- Date: Sat, 04 Oct 2025 15:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.296119
- Title: Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade offs
- Title(参考訳): エージェントシステムのための小さな言語モデル:アーキテクチャ、能力、デプロイメントのトレードオフに関する調査
- Authors: Raghav Sharma, Manan Mehta,
- Abstract要約: 小型言語モデル(SLM: 1-12B パラム、時には 20B まで)は十分であり、エージェント処理に優れていることが多い。
オープンおよびプロプライエタリなSLMにまたがって最近のエビデンスを合成し、近代的な評価に結び付ける。
本研究では,不確実性を考慮したルーティングと検証器カスケードを用いたSLMフォールバックシステムを定式化し,実生産目標を反映したエンジニアリングメトリクスを提案する。
- 参考スコア(独自算出の注目度): 0.10742675209112619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs; 1-12B params, sometimes up to 20B) are sufficient and often superior for agentic workloads where the objective is schema- and API-constrained accuracy rather than open-ended generation. We synthesize recent evidence across open and proprietary SLMs (Phi-4-Mini, Qwen-2.5-7B, Gemma-2-9B, Llama-3.2-1B/3B, Ministral-3B/8B, Apple on-device 3B, DeepSeek-R1-Distill) and connect it to modern evaluations (BFCL v3/v4, StableToolBench) and serving stacks (vLLM, SGLang, TensorRT-LLM) paired with guided decoding libraries (XGrammar, Outlines). We formalize SLM-default, LLM-fallback systems with uncertainty-aware routing and verifier cascades, and propose engineering metrics that reflect real production goals: cost per successful task (CPS), schema validity rate, executable call rate, p50/p95 latency, and energy per request. Guided decoding, strict JSON Schema outputs, and validator-first tool execution close much of the capability gap with larger models and often let SLMs match or surpass LLMs on tool use, function calling, and RAG at 10x-100x lower token cost with materially better latency and energy. We provide design patterns for agent stacks that prioritize SLMs: schema-first prompting, type-safe function registries, confidence scoring with verifier rollups, and lightweight adaptation via LoRA/QLoRA. We also delineate limits where fallback remains valuable (open-domain reasoning and some long-horizon planning). The result is a practical blueprint for building fast, inexpensive, and reliable agents that default to SLMs while preserving headroom with targeted LLM assistance. Keywords: small language models, agents, function calling, structured outputs, JSON Schema, guided decoding, LoRA/QLoRA, routing, energy efficiency, edge inference
- Abstract(参考訳): 小言語モデル(SLM: 1-12B params、時には最大20B)は、オープンエンドジェネレーションよりもスキーマとAPI制約の正確さを目標とするエージェントワークロードに対して十分であり、しばしば優れている。
我々は、オープンでプロプライエタリなSLM(Phi-4-Mini, Qwen-2.5-7B, Gemma-2-9B, Llama-3.2-1B/3B, Ministral-3B/8B, Apple on-device 3B, DeepSeek-R1-Distill)にまたがって最近のエビデンスを合成し、モダンな評価(BFCL v3/v4, StableToolBench)に接続し、スタック(vLLM, SGLang, TensorRT-LLM)をガイドデコードライブラリ(XGrammar, Outlines)と組み合わせて提供する。
我々は、不確実性を考慮したルーティングと検証ケードを備えたSLMフォールバックシステムを形式化し、実際の生産目標(CPS)を反映したエンジニアリングメトリクス(コスト・パー・成功タスク(コスト・パー・成功タスク)、スキーマ妥当性率、実行可能呼び出し率、p50/p95レイテンシ、要求毎のエネルギー)を提案する。
ガイド付きデコーディング、厳密なJSONスキーマ出力、バリデータファーストツールの実行は、より大きなモデルとの機能ギャップの大部分を埋め、SLMがツール使用、関数呼び出し、RAGを10倍から100倍低いトークンコストで、非常に優れたレイテンシとエネルギで一致させたり、超えたりすることが多い。
SLMを優先するエージェントスタックの設計パターンとして,スキーマファーストプロンプト,タイプセーフな関数レジストリ,検証ロールアップによる信頼性スコアリング,LoRA/QLoRAによる軽量適応などを提供する。
また、フォールバックが価値を維持する限界(オープンドメイン推論と長期計画)も明確化しています。
その結果は、高速で安価で信頼性の高いエージェントを構築するための実用的な青写真であり、目標のLSM支援でヘッドルームを保ちながら、SLMをデフォルトにしている。
キーワード:小言語モデル、エージェント、関数呼び出し、構造化出力、JSONスキーマ、ガイド付きデコーディング、LoRA/QLoRA、ルーティング、エネルギー効率、エッジ推論
関連論文リスト
- The Case for Instance-Optimized LLMs in OLAP Databases [0.7090165638014332]
大規模言語モデル(LLM)は、強力なデータ要約、クリーニング、セマンティックトランスフォーメーション機能を備えた分析システムを強化することができる。
IOLMDB は,クエリ固有モデル最適化により LLM 拡張データベースクエリを実用的なものにする新しいシステムである。
論文 参考訳(メタデータ) (2025-07-07T13:10:01Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。