論文の概要: Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling
- arxiv url: http://arxiv.org/abs/2504.19277v1
- Date: Sun, 27 Apr 2025 15:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.213822
- Title: Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling
- Title(参考訳): 小さなモデルと大きなタスク:関数呼び出しのための小さな言語モデルに関する探索的研究
- Authors: Ishan Kavathekar, Raghav Donakanti, Ponnurangam Kumaraguru, Karthik Vaidhyanathan,
- Abstract要約: 関数呼び出しは、情報検索、ソフトウェア工学、自動化といった分野に広く応用される複雑なタスクである。
LLM(Large Language Models)はこのプロセスを自動化できるが、計算コストが高く、リソース制約のある環境では実用的ではない。
小型言語モデル(SLM)は効率よく動作し、応答時間を短縮し、計算要求を低減できる。
- 参考スコア(独自算出の注目度): 6.102559098873098
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Function calling is a complex task with widespread applications in domains such as information retrieval, software engineering and automation. For example, a query to book the shortest flight from New York to London on January 15 requires identifying the correct parameters to generate accurate function calls. Large Language Models (LLMs) can automate this process but are computationally expensive and impractical in resource-constrained settings. In contrast, Small Language Models (SLMs) can operate efficiently, offering faster response times, and lower computational demands, making them potential candidates for function calling on edge devices. In this exploratory empirical study, we evaluate the efficacy of SLMs in generating function calls across diverse domains using zero-shot, few-shot, and fine-tuning approaches, both with and without prompt injection, while also providing the finetuned models to facilitate future applications. Furthermore, we analyze the model responses across a range of metrics, capturing various aspects of function call generation. Additionally, we perform experiments on an edge device to evaluate their performance in terms of latency and memory usage, providing useful insights into their practical applicability. Our findings show that while SLMs improve from zero-shot to few-shot and perform best with fine-tuning, they struggle significantly with adhering to the given output format. Prompt injection experiments further indicate that the models are generally robust and exhibit only a slight decline in performance. While SLMs demonstrate potential for the function call generation task, our results also highlight areas that need further refinement for real-time functioning.
- Abstract(参考訳): 関数呼び出しは、情報検索、ソフトウェア工学、自動化といった分野に広く応用される複雑なタスクである。
例えば、1月15日にニューヨークからロンドンまでの最も短いフライトを予約するには、正確な関数呼び出しを生成するために正しいパラメータを特定する必要がある。
LLM(Large Language Models)はこのプロセスを自動化できるが、計算コストが高く、リソース制約のある環境では実用的ではない。
対照的に、Small Language Models (SLM) は、より高速な応答時間を提供し、計算要求を低くすることで、エッジデバイスでの関数呼び出しの候補となる可能性がある。
本研究では, ゼロショット, 少数ショット, 微調整の両手法を用いて, 様々な領域にまたがる関数呼び出し生成におけるSLMの有効性を評価するとともに, 将来の応用を促進するための微調整モデルも提供する。
さらに,様々なメトリクスのモデル応答を分析し,関数呼び出し生成のさまざまな側面を捉える。
さらに、エッジデバイス上で、レイテンシとメモリ使用量の観点から性能を評価する実験を行い、実用性に関する有用な洞察を提供する。
以上の結果から,SLMはゼロショットから少数ショットに改善され,微調整による性能が向上する一方で,出力フォーマットの定着に苦慮していることが明らかとなった。
プロンプト・インジェクションの実験は、モデルが一般に堅牢であり、性能がわずかに低下していることを示している。
SLMは関数呼び出し生成タスクの可能性を実証する一方で,実時間関数処理のさらなる改善を必要とする領域も強調する。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文 参考訳(メタデータ) (2024-10-06T18:57:46Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。