論文の概要: Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning
- arxiv url: http://arxiv.org/abs/2512.15943v1
- Date: Wed, 17 Dec 2025 20:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.811377
- Title: Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning
- Title(参考訳): 効果的なエージェントツール呼び出しのための小型言語モデル:目標とした微調整による大規模モデルの性能向上
- Authors: Polaris Jhandi, Owais Kazi, Shreyas Subramanian, Neel Sendas,
- Abstract要約: 小言語モデル(SLM)は、インフラストラクチャのオーバーヘッドを大幅に削減しながら、ターゲットとするアプリケーションで同等のパフォーマンスを提供できる。
我々は、Large Language Models (LLM)によって伝統的に扱われる代表タスクを実行するために、ドメイン適応型SLMを訓練した。
細調整したSLMは,ToolBench評価に77.55%のパスレートで優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 1.8485970721272897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As organizations scale adoption of generative AI, model cost optimization and operational efficiency have emerged as critical factors determining sustainability and accessibility. While Large Language Models (LLMs) demonstrate impressive capabilities across diverse tasks, their extensive computational requirements make them cost-prohibitive for routine enterprise use. This limitation motivates the exploration of Small Language Models (SLMs), which can deliver comparable performance in targeted applications while drastically reducing infrastructure overhead (Irugalbandara et al., 2023). In this work, we investigate the feasibility of replacing LLM-driven workflows with optimized SLMs. We trained a domain-adapted SLM to execute representative tasks traditionally handled by LLMs, such as document summarization, query answering, and structured data interpretation. As part of the experiment, we investigated the fine-tuning of facebook/opt-350m model (single epoch only) using the Hugging Face TRL (Transformer Reinforcement Learning), specifically the Supervised Fine-Tuning (SFT) trainer. The OPT-350M model was released by Meta AI in 2022 as part of the OPT (Open Pretrained Transformer) family of models. Similar studies demonstrate that even models at the 350M parameter scale can meaningfully contribute to instruction-tuning pipelines (Mekala et al., 2024). Experimental results demonstrated that our fine-tuned SLM achieves exceptional performance with a 77.55\% pass rate on ToolBench evaluation, significantly outperforming all baseline models including ChatGPT-CoT (26.00\%), ToolLLaMA-DFS (30.18\%), and ToolLLaMA-CoT (16.27\%). These findings emphasize that thoughtful design and targeted training of SLMs can significantly lower barriers to adoption, enabling cost-effective, large-scale integration of generative AI into production systems.
- Abstract(参考訳): 組織が生成AIの採用を拡大するにつれ、モデルコストの最適化と運用効率が、持続可能性とアクセシビリティを決定する重要な要因として浮上している。
大規模言語モデル(LLM)は様々なタスクにまたがる印象的な能力を示しているが、その広範な計算要求により、日常的なエンタープライズ利用にはコストを抑えることができる。
この制限はSmall Language Models (SLM) の探索を動機付け、インフラのオーバーヘッドを大幅に削減しながら、ターゲットアプリケーションで同等のパフォーマンスを提供できる(Irugalbandara et al , 2023)。
本研究では,LLM駆動ワークフローを最適化されたSLMに置き換える可能性について検討する。
我々は、文書要約、クエリ応答、構造化データ解釈など、従来のLLMで処理された代表タスクを実行するために、ドメイン適応SLMを訓練した。
実験の一環として,Hugging Face TRL(Transformer Reinforcement Learning),特に Supervised Fine-Tuning (SFT) トレーナーを用いたfacebook/opt-350mモデルの微調整について検討した。
OPT-350Mモデルは2022年にMeta AIによってOPT(Open Pretrained Transformer)シリーズの一部としてリリースされた。
同様の研究は、350Mパラメータスケールのモデルでさえ、命令チューニングパイプラインに有意義に寄与することを示した(Mekala et al , 2024)。
実験結果から,チェットGPT-CoT (26.00\%), ToolLLaMA-DFS (30.18\%), ToolLLaMA-CoT (16.27\%) などのベースラインモデルでは,77.55\%のパスレートで優れた性能を示した。
これらの知見は、SLMの思慮深い設計とターゲットトレーニングが採用障壁を大幅に減らし、生産システムへの生産AIの大規模統合をコスト効率で実現することを強調している。
関連論文リスト
- TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:07:32Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。