論文の概要: HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating
- arxiv url: http://arxiv.org/abs/2602.13665v1
- Date: Sat, 14 Feb 2026 08:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.322183
- Title: HyFunc: Accelerating LLM-based Function Calls for Agentic AI through Hybrid-Model Cascade and Dynamic Templating
- Title(参考訳): HyFunc: ハイブリッドモデルカスケードと動的テンプレートによるエージェントAIのためのLCMベースの関数呼び出しの高速化
- Authors: Weibin Liao, Jian-guang Lou, Haoyi Xiong,
- Abstract要約: HyFuncはエージェントAIシステムのための新しいフレームワークである。
これは、大きなモデルがユーザ意図を単一の"ソフトトークン"に蒸留するハイブリッドモデルカスケードを採用している。
推論レイテンシは0.828秒で、すべてのベースラインモデルより優れ、80.1%のパフォーマンスに達する。
- 参考スコア(独自算出の注目度): 41.914005752562524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While agentic AI systems rely on LLMs to translate user intent into structured function calls, this process is fraught with computational redundancy, leading to high inference latency that hinders real-time applications. This paper identifies and addresses three key redundancies: (1) the redundant processing of a large library of function descriptions for every request; (2) the redundant use of a large, slow model to generate an entire, often predictable, token sequence; and (3) the redundant generation of fixed, boilerplate parameter syntax. We introduce HyFunc, a novel framework that systematically eliminates these inefficiencies. HyFunc employs a hybrid-model cascade where a large model distills user intent into a single "soft token." This token guides a lightweight retriever to select relevant functions and directs a smaller, prefix-tuned model to generate the final call, thus avoiding redundant context processing and full-sequence generation by the large model. To eliminate syntactic redundancy, our "dynamic templating" technique injects boilerplate parameter syntax on-the-fly within an extended vLLM engine. To avoid potential limitations in generalization, we evaluate HyFunc on an unseen benchmark dataset, BFCL. Experimental results demonstrate that HyFunc achieves an excellent balance between efficiency and performance. It achieves an inference latency of 0.828 seconds, outperforming all baseline models, and reaches a performance of 80.1%, surpassing all models with a comparable parameter scale. These results suggest that HyFunc offers a more efficient paradigm for agentic AI. Our code is publicly available at https://github.com/MrBlankness/HyFunc.
- Abstract(参考訳): エージェントAIシステムは、ユーザーの意図を構造化された関数呼び出しに変換するためにLLMに依存するが、このプロセスは計算の冗長性に悩まされ、リアルタイムアプリケーションを妨げる高い推論レイテンシをもたらす。
本稿では,(1)要求毎に関数記述の大規模ライブラリを冗長に処理すること,(2)予測可能なトークン列を生成するために,大規模で低速なモデルを冗長に使用すること,(3)定型的,定型的なパラメータ構文を冗長に生成すること,の3つの重要な冗長性を特定し,対処する。
我々はこれらの非効率性を体系的に排除する新しいフレームワークであるHyFuncを紹介する。
HyFuncは、大きなモデルがユーザ意図を単一の"ソフトトークン"に蒸留するハイブリッドモデルカスケードを使用している。
このトークンは、ライトウェイトなレトリバーを誘導して、関連する関数を選択し、より小さなプレフィックスチューニングされたモデルで最終呼び出しを生成する。
構文的冗長性を排除するため,我々の「ダイナミックテンプレート」技術は,拡張されたvLLMエンジン内でボイラプレートパラメータの構文をオンザフライで注入する。
一般化における潜在的な制限を回避するため,未知のベンチマークデータセットであるBFCLを用いてHyFuncを評価する。
実験の結果,HyFuncは効率と性能のバランスが良好であることが確認された。
推論レイテンシは0.828秒で、すべてのベースラインモデルを上回っ、80.1%のパフォーマンスに達し、同等のパラメータスケールで全てのモデルを上回る。
これらの結果は,HyFuncがエージェントAIに対して,より効率的なパラダイムを提供することを示唆している。
私たちのコードはhttps://github.com/MrBlankness/HyFunc.comで公開されています。
関連論文リスト
- Layer-wise LoRA fine-tuning: a similarity metric approach [0.6323908398583081]
Low-Rank Adaptation (LoRA) 技術は、事前学習されたモデルを凍結し、少数のパラメータを更新することで、このプロセスの計算コストを削減することを目的としている。
従来の問題に対して,LoRAやその変種を用いて,少数の層のみを微調整に体系的に選択することで対処する。
異なるモデルやタスク間で予測性能を維持しながら、LoRAベースのテクニックのトレーニング可能なパラメータを最大50%削減する。
論文 参考訳(メタデータ) (2026-02-05T18:38:53Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - HyperAdaLoRA: Accelerating LoRA Rank Allocation During Training via Hypernetworks without Sacrificing Performance [27.391727025825546]
Low-Rank Adaptation (LoRA)は、大規模言語モデルを微調整するための有望なアプローチとして登場した。
本稿では,ハイパーネットワークを活用してAdaLoRAの収束を促進する新しいフレームワークであるHyperAdaLoRAを提案する。
本手法は性能を犠牲にすることなく高速な収束を実現する。
論文 参考訳(メタデータ) (2025-10-03T00:15:59Z) - Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。
最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。
提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2025-02-17T04:37:22Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。