論文の概要: SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading
- arxiv url: http://arxiv.org/abs/2510.05164v1
- Date: Sat, 04 Oct 2025 19:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.874663
- Title: SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading
- Title(参考訳): SATER: ルーティングとカスケードに対する自己認識とトークン効率のよいアプローチ
- Authors: Yuanzhe Shen, Yide Liu, Zisu Huang, Ruicheng Yin, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。
SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
- 参考スコア(独自算出の注目度): 39.20076289493037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance across diverse tasks, yet their effectiveness frequently depends on costly commercial APIs or cloud services. Model selection thus entails a critical trade-off between performance and cost: high-performing LLMs typically incur substantial expenses, whereas budget-friendly small language models (SLMs) are constrained by limited capabilities. Current research primarily proposes two routing strategies: pre-generation routing and cascade routing. Both approaches have distinct characteristics, with cascade routing typically offering superior cost-effectiveness and accuracy despite its higher latency. To further address the limitations of both approaches, we introduce SATER, a dual-mode compatible approach that fine-tunes models through shortest-response preference optimization and a confidence-aware rejection mechanism. SATER significantly reduces redundant outputs and response times, while improving both the performance of pre-generation routing and the efficiency of cascade routing. Experiments across three SLMs and six datasets, varying in type and complexity, demonstrate that SATER achieves comparable performance while consistently reducing computational costs by over 50\% and cascade latency by over 80\%.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なタスクにまたがる顕著なパフォーマンスを示すが、その有効性は高価な商用APIやクラウドサービスに依存していることが多い。
したがって、モデル選択は性能とコストの間に重要なトレードオフをもたらす:高い性能のLLMは一般的にかなりの費用を負担するが、予算に優しい小型言語モデル(SLM)は限られた能力によって制約される。
現在の研究では、主に前世代のルーティングとカスケードのルーティングという2つのルーティング戦略が提案されている。
どちらのアプローチも異なる特徴があり、カスケードルーティングは一般的にレイテンシが高いにもかかわらず、コスト効率と正確性に優れる。
両手法の限界にさらに対処するため,最短応答の優先最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換アプローチであるSATERを導入する。
SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
3つのSLMと6つのデータセットにわたる実験では、型と複雑さが異なり、SATERは同等のパフォーマンスを実現し、計算コストを50%以上削減し、カスケード遅延を80%以上削減した。
関連論文リスト
- One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection [3.872690949369412]
計算コストと性能プロファイルの異なる大規模言語モデル(LLM)は、現実世界のアプリケーションにスケーラブルでコスト効率の良いデプロイを実現する上で重要な課題である。
我々は、単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化する統一的なルーティングフレームワークを導入する。
我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
論文 参考訳(メタデータ) (2025-09-11T18:29:09Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。