論文の概要: CASTER: Breaking the Cost-Performance Barrier in Multi-Agent Orchestration via Context-Aware Strategy for Task Efficient Routing
- arxiv url: http://arxiv.org/abs/2601.19793v1
- Date: Tue, 27 Jan 2026 16:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.406561
- Title: CASTER: Breaking the Cost-Performance Barrier in Multi-Agent Orchestration via Context-Aware Strategy for Task Efficient Routing
- Title(参考訳): CASTER:タスク効率的なルーティングのためのコンテキストアウェア戦略によるマルチエージェントオーケストレーションにおけるコストパフォーマンスバリアの破壊
- Authors: Shanyv Liu, Xuyang Yuan, Tao Chen, Zijun Zhan, Zhu Han, Danyang Zheng, Weishan Zhang, Shaohua Cao,
- Abstract要約: CASTER (Context-Aware Strategy for Task Efficient Routing) はグラフベースMASにおける動的モデル選択のための軽量ルータである。
CASTERは強力なモデルベースラインに比べて推論コストを最大72.4%削減する。
- 参考スコア(独自算出の注目度): 25.48759875572515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based Multi-Agent Systems (MAS) enable complex cyclic workflows but suffer from inefficient static model allocation, where deploying strong models uniformly wastes computation on trivial sub-tasks. We propose CASTER (Context-Aware Strategy for Task Efficient Routing), a lightweight router for dynamic model selection in graph-based MAS. CASTER employs a Dual-Signal Router that combines semantic embeddings with structural meta-features to estimate task difficulty. During training, the router self-optimizes through a Cold Start to Iterative Evolution paradigm, learning from its own routing failures via on-policy negative feedback. Experiments using LLM-as-a-Judge evaluation across Software Engineering, Data Analysis, Scientific Discovery, and Cybersecurity demonstrate that CASTER reduces inference cost by up to 72.4% compared to strong-model baselines while matching their success rates, and consistently outperforms both heuristic routing and FrugalGPT across all domains.
- Abstract(参考訳): グラフベースのマルチエージェントシステム(MAS)は複雑な循環ワークフローを実現するが、非効率的な静的モデルアロケーションに悩まされる。
グラフベースMASにおける動的モデル選択のための軽量ルータCASTER(Context-Aware Strategy for Task Efficient Routing)を提案する。
CASTERでは、意味的埋め込みと構造的メタ機能を組み合わせてタスクの難易度を推定するデュアル署名ルータを採用している。
トレーニング中、ルータはコールドスタート・トゥ・イテレーティブ・エボリューション(Cold Start to Iterative Evolution)パラダイムを通じて自己最適化を行う。
LLM-as-a-Judgeの評価をソフトウェアエンジニアリング、データ分析、サイエンティフィックディスカバリ、サイバーセキュリティで行った実験では、CASTERは成功率に適合しながら強力なモデルベースラインと比較して推論コストを最大72.4%削減し、すべてのドメインでヒューリスティックルーティングとFrugalGPTの両方を一貫して上回っている。
関連論文リスト
- EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - AnaFlow: Agentic LLM-based Workflow for Reasoning-Driven Explainable and Sample-Efficient Analog Circuit Sizing [1.2617078020344616]
サンプル効率と説明可能なアナログ回路サイズのための新しいエージェントAIフレームワークを提案する。
AnaFlowフレームワークは、複雑さの異なる2つの回路で実証されており、サイズタスクを完全に完了することができる。
固有の説明可能性により、アナログ設計空間探索の強力なツールとなり、アナログEDAの新しいパラダイムとなる。
論文 参考訳(メタデータ) (2025-11-05T18:24:01Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading [39.20076289493037]
本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。
SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
論文 参考訳(メタデータ) (2025-10-04T19:55:36Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。