Fugu-MT 論文翻訳(概要): HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating

論文の概要: HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating

arxiv url: http://arxiv.org/abs/2602.13665v1
Date: Sat, 14 Feb 2026 08:19:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:28.322183
Title: HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating
Title（参考訳）: HyFunc: ハイブリッドモデルカスケードと動的テンプレートによるエージェントAIのためのLCMベースの関数呼び出しの高速化
Authors: Weibin Liao, Jian-guang Lou, Haoyi Xiong,
Abstract要約: HyFuncはエージェントAIシステムのための新しいフレームワークである。これは、大きなモデルがユーザ意図を単一の"ソフトトークン"に蒸留するハイブリッドモデルカスケードを採用している。推論レイテンシは0.828秒で、すべてのベースラインモデルより優れ、80.1%のパフォーマンスに達する。
参考スコア（独自算出の注目度）: 41.914005752562524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While agentic AI systems rely on LLMs to translate user intent into structured function calls, this process is fraught with computational redundancy, leading to high inference latency that hinders real-time applications. This paper identifies and addresses three key redundancies: (1) the redundant processing of a large library of function descriptions for every request; (2) the redundant use of a large, slow model to generate an entire, often predictable, token sequence; and (3) the redundant generation of fixed, boilerplate parameter syntax. We introduce HyFunc, a novel framework that systematically eliminates these inefficiencies. HyFunc employs a hybrid-model cascade where a large model distills user intent into a single "soft token." This token guides a lightweight retriever to select relevant functions and directs a smaller, prefix-tuned model to generate the final call, thus avoiding redundant context processing and full-sequence generation by the large model. To eliminate syntactic redundancy, our "dynamic templating" technique injects boilerplate parameter syntax on-the-fly within an extended vLLM engine. To avoid potential limitations in generalization, we evaluate HyFunc on an unseen benchmark dataset, BFCL. Experimental results demonstrate that HyFunc achieves an excellent balance between efficiency and performance. It achieves an inference latency of 0.828 seconds, outperforming all baseline models, and reaches a performance of 80.1%, surpassing all models with a comparable parameter scale. These results suggest that HyFunc offers a more efficient paradigm for agentic AI. Our code is publicly available at https://github.com/MrBlankness/HyFunc.
Abstract（参考訳）: エージェントAIシステムは、ユーザーの意図を構造化された関数呼び出しに変換するためにLLMに依存するが、このプロセスは計算の冗長性に悩まされ、リアルタイムアプリケーションを妨げる高い推論レイテンシをもたらす。本稿では,(1)要求毎に関数記述の大規模ライブラリを冗長に処理すること,(2)予測可能なトークン列を生成するために,大規模で低速なモデルを冗長に使用すること,(3)定型的,定型的なパラメータ構文を冗長に生成すること,の3つの重要な冗長性を特定し,対処する。我々はこれらの非効率性を体系的に排除する新しいフレームワークであるHyFuncを紹介する。 HyFuncは、大きなモデルがユーザ意図を単一の"ソフトトークン"に蒸留するハイブリッドモデルカスケードを使用している。このトークンは、ライトウェイトなレトリバーを誘導して、関連する関数を選択し、より小さなプレフィックスチューニングされたモデルで最終呼び出しを生成する。構文的冗長性を排除するため,我々の「ダイナミックテンプレート」技術は,拡張されたvLLMエンジン内でボイラプレートパラメータの構文をオンザフライで注入する。一般化における潜在的な制限を回避するため,未知のベンチマークデータセットであるBFCLを用いてHyFuncを評価する。実験の結果,HyFuncは効率と性能のバランスが良好であることが確認された。推論レイテンシは0.828秒で、すべてのベースラインモデルを上回っ、80.1%のパフォーマンスに達し、同等のパラメータスケールで全てのモデルを上回る。これらの結果は,HyFuncがエージェントAIに対して,より効率的なパラダイムを提供することを示唆している。私たちのコードはhttps://github.com/MrBlankness/HyFunc.comで公開されています。

論文の概要: HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating

関連論文リスト