論文の概要: ODIA: Oriented Distillation for Inline Acceleration of LLM-based Function Calling
- arxiv url: http://arxiv.org/abs/2507.08877v1
- Date: Thu, 10 Jul 2025 04:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.671587
- Title: ODIA: Oriented Distillation for Inline Acceleration of LLM-based Function Calling
- Title(参考訳): ODIA:LDM機能呼び出しのインライン加速のための配向蒸留
- Authors: Hanlong Zhang, Jingsheng Yang, Hao Li, Yuhao He, Franck Gong,
- Abstract要約: 本稿では,関数呼び出しを高速化するために,ODIA(Oriented Distillation for Inline Acceleration)と呼ばれる新しい手法を提案する。
プロダクショントラフィックから"単純なクエリ"を自動的に識別し、より大きなモデルから小さなモデルへの知識を抽出することで、精度を維持しながら応答遅延を45%(予測)と78%(中間)に削減する。
我々は,音楽アプリケーションにおける実環境展開によるアプローチの有効性を実証し,より小さなモデルでは60%のトラフィックを無視できる精度で処理することができた。
- 参考スコア(独自算出の注目度): 5.523499843271032
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Function Calling is a crucial technique that enables Large Language Models (LLMs) to interact with external systems through APIs. However, the high latency associated with LLM-based Function Calling significantly impacts user experience. This paper presents a novel approach called Oriented Distillation for Inline Acceleration (ODIA) that leverages online user interaction data to accelerate Function Calling. By automatically identifying "simple queries" from production traffic and distilling knowledge from larger models to smaller ones, our method reduces response latency by 45% (expected) and 78% (median) while maintaining accuracy. We demonstrate the effectiveness of our approach through real-world deployment in a music application, where the smaller model successfully handles 60% of traffic with negligible accuracy loss. Our method requires minimal human intervention and continuously improves through automated data collection and model updating, making it a practical solution for production environments.
- Abstract(参考訳): 関数呼び出しは、大言語モデル(LLM)がAPIを介して外部システムと対話することを可能にする重要なテクニックである。
しかし、LLMベースのFunction Callingに関連する高いレイテンシは、ユーザエクスペリエンスに大きな影響を与えます。
本稿では,オンラインユーザインタラクションデータを利用して関数呼び出しを高速化するODIA(Oriented Distillation for Inline Acceleration)という新しい手法を提案する。
プロダクショントラフィックから"単純なクエリ"を自動的に識別し、より大きなモデルから小さなモデルへの知識を抽出することで、精度を維持しながら応答遅延を45%(予測)と78%(中間)に削減する。
我々は,音楽アプリケーションにおける実環境展開によるアプローチの有効性を実証し,より小さなモデルでは60%のトラフィックを無視できる精度で処理することができた。
提案手法は人間の介入を最小限に抑え, 自動データ収集とモデル更新により継続的に改善し, 実運用環境における実用的なソリューションとなる。
関連論文リスト
- Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Less is More: Optimizing Function Calling for LLM Execution on Edge Devices [0.44784055850794474]
大きな言語モデル(LLM)は、複雑な入力を処理したり、複数のツールを効果的に管理できないため、エッジでの関数呼び出しに苦労する。
動的ツール選択のためのファインチューニングフリー関数呼び出し方式であるLess-is-Moreを紹介する。
我々のアプローチは、LLMで利用可能なツールの数を選択的に削減することで、エッジデバイス上での機能呼び出し性能、実行時間、電力効率を大幅に改善する、というキーインサイトに基づいている。
論文 参考訳(メタデータ) (2024-11-23T00:51:09Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。