論文の概要: Switchcraft: AI Model Router for Agentic Tool Calling
- arxiv url: http://arxiv.org/abs/2605.07112v1
- Date: Fri, 08 May 2026 01:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.725005
- Title: Switchcraft: AI Model Router for Agentic Tool Calling
- Title(参考訳): Switchcraft: エージェントツール呼び出しのためのAIモデルルータ
- Authors: Sharad Agarwal, Pooria Namyar, Alec Wolman, Rahul Ambavat, Ankur Gupta, Qizheng Zhang,
- Abstract要約: エージェントツールコールに最適化された最初の(私たちの知る限りの)モデルルータであるSwitchcraftを紹介します。
Switchcraftは82.9%の精度を実現し、推論コストを84%削減した。
より大規模なモデルはツール利用タスクにおいてより小さなモデルよりも一貫して優れておらず、名目上より安価なモデルはトークン集約推論による総コストの上昇を招きかねないことが判明した。
- 参考スコア(独自算出の注目度): 2.8769287530821948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems that invoke external tools are powerful but costly, leading developers to default to large models and overspend inference budgets. Model routing can mitigate this, but existing routers are designed for chat completion rather than tool use. We present Switchcraft, the first (to the best of our knowledge) model router optimized for agentic tool calling. Switchcraft operates inline, selecting the lowest-cost model subject to correctness. We construct an evaluation framework on five function-calling benchmarks and train a DistilBERT-based classifier, deployed under a latency budget. Switchcraft achieves 82.9% accuracy -- matching or exceeding the best individual model -- while reducing inference cost by 84%, saving over $3,600 per million queries. We find that larger models do not consistently outperform smaller ones on tool-use tasks, and that nominally cheaper models can incur higher total cost due to token-intensive reasoning. Our work enables cost-aware agentic AI deployment without sacrificing correctness.
- Abstract(参考訳): 外部ツールを起動するエージェントAIシステムは強力だがコストがかかるため、開発者は大規模なモデルと過剰な推論予算をデフォルトにすることができる。
モデルルーティングは、これを緩和できるが、既存のルータは、ツールの使用ではなく、チャット補完用に設計されている。
エージェントツールコールに最適化された最初の(私たちの知る限りの)モデルルータであるSwitchcraftを紹介します。
Switchcraftはインラインで動作し、最小コストのモデルを選択する。
我々は,5つの関数呼び出しベンチマーク上で評価フレームワークを構築し,遅延予算の下でデプロイされた DistilBERT ベースの分類器を訓練する。
Switchcraftは82.9%の精度 – 最高の個別モデルと一致または超え – を実現し、推論コストを84%削減し、100万クエリに対して3,600ドル以上節約している。
より大規模なモデルでは、ツール使用タスクにおいて、より小さなモデルよりも一貫して優れておらず、トークン集約推論により、名目上、より安価なモデルでは、より高いコストを発生させることができる。
私たちの作業は、正確性を犠牲にすることなく、コストを意識したエージェントAIデプロイメントを可能にします。
関連論文リスト
- Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference [0.0]
Pyramid MoA"は階層的なMixture-of-Agentsアーキテクチャで、軽量ルータを使用してクエリを動的にエスカレートする。
システムには無視可能な遅延オーバーヘッド(+0.82s)が導入されており、パフォーマンスと予算のトレードオフが調整可能であることを実証する。
論文 参考訳(メタデータ) (2026-02-23T04:47:47Z) - When Routing Collapses: On the Degenerate Convergence of LLM Routers [46.01380774114097]
ユーザのコスト予算が増加するにつれて、ルータは体系的に最も有能で最も高価なモデルにデフォルトとなる。
モデルランキングを直接学習する決定対応ルータであるEquiを提案する。
RouterBenchでは、最強の先行ルータと比較して、GPT-4レベルのパフォーマンスでコストを約17%削減する。
論文 参考訳(メタデータ) (2026-02-03T12:51:55Z) - Models Under SCOPE: Scalable and Controllable Routing via Pre-hoc Reasoning [28.165465162107253]
コストと性能を予測してモデル選択を超えるルーティングフレームワークであるSCOPEを提案する。
SCOPEは、モデル名の固定に依存するのではなく、モデルがどのように同様の問題に対処するかを検索することで、推論に基づく予測を行う。
性能が優先される場合の精度を最大25.7%向上させるか、効率が重要な場合のコストを最大95.1%削減することができる。
論文 参考訳(メタデータ) (2026-01-29T21:09:36Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs [51.88834210085435]
本稿では、軽量で解釈可能でスケーラブルなルーティングフレームワークRADAR(Reasoning-Ability and Difficulty-Aware Routing)を提案する。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から異なるクエリへのアイテム応答モデルを学ぶ。
我々は8つの広く使われている推論ベンチマークについて広範な実験を行い、最先端のルーティング手法と比較してRADARの優れた性能を実証した。
論文 参考訳(メタデータ) (2025-09-29T19:33:44Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。