論文の概要: HyDRA: Hybrid Dynamic Routing Architecture for Heterogeneous LLM Pools
- arxiv url: http://arxiv.org/abs/2605.17106v1
- Date: Sat, 16 May 2026 18:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.610404
- Title: HyDRA: Hybrid Dynamic Routing Architecture for Heterogeneous LLM Pools
- Title(参考訳): HyDRA:不均一LLMプールのハイブリッド動的ルーティングアーキテクチャ
- Authors: Aashna Garg, Siddharth Singha Roy, Jinu Jang, Federico Brancasi, Shengyu Fu,
- Abstract要約: 我々は,クエリ毎の細粒度,多次元能力要件を予測するフレームワークHyDRAを提案する。
ショートフォールマッチングアルゴリズムは、予測された要求を満たす機能を持つ最も安価なモデルを選択する。
このフレームワークは、GitHub CopilotのVS Code Chat自動モードのすべてのユーザにデプロイされる。
- 参考スコア(独自算出の注目度): 2.0320563270126493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Production LLM deployments increasingly maintain heterogeneous model pools spanning order-of-magnitude cost differences. Existing routers make binary strong-vs-weak decisions and couple learned parameters to specific model identities, requiring retraining whenever the catalog changes. We present HyDRA (Hybrid Dynamic Routing Architecture), a framework that predicts fine-grained, multi-dimensional capability requirements per query and matches them against configuration-defined model profiles via shortfall matching. A ModernBERT encoder with K=4 independent sigmoid heads scores each query along reasoning, code generation, debugging, and tool use; a shortfall-matching algorithm then selects the cheapest model whose capabilities meet the predicted requirements. The deployed predictor runs at 86 ms median CPU inference latency in production, and is fully decoupled from the model catalog -- adding or removing models requires only a configuration change, with zero retraining. On SWE-Bench Verified (5-model pool: GPT-5.4-mini, Claude Haiku 4.5, GPT-5.3 Codex, Claude Sonnet 4.6, GPT-5.4), HyDRA's tunable shortfall threshold spans three regimes: peak-quality exceeds the always-strong Claude Sonnet 4.6 baseline (75.4% vs. 74.2% resolution) at 12.9% cost savings; iso-quality matches Sonnet at 54.1% cost savings, a 6x improvement over our prior in-house binary router at 9.1%; aggressive pushes savings to 72.5% for a 3.2-point quality trade. Results generalize across LiveCodeBench, BigCodeBench, and tau-bench. HyDRA is deployed to all users in GitHub Copilot's VS Code Chat auto-mode and -- to our knowledge for the first time in the LLM routing literature -- demonstrates language-invariant routing across CJK, European, and other script families.
- Abstract(参考訳): 生産LSMの展開は、オーダー・オブ・マグニチュードのコスト差にまたがる異種モデルプールをますます維持する。
既存のルータはバイナリの強いvs弱判定と学習したパラメータを特定のモデルIDに分割する。
提案するHybrid Dynamic Routing Architecture(Hybrid Dynamic Routing Architecture)は,クエリ毎の詳細な多次元機能要件を予測し,ショートフォールマッチングによる構成定義モデルプロファイルと照合するフレームワークである。
K=4の独立シグマノイドヘッドを持つModernBERTエンコーダは、推論、コード生成、デバッグ、ツール使用によって各クエリをスコアし、ショートフォールマッチングアルゴリズムは予測された要件を満たす最も安価なモデルを選択する。
デプロイされた予測器は、本番環境では、中央値のCPU推論遅延86msで動作し、モデルカタログから完全に切り離されている。
SWE-Bench Verified (5-model pool: GPT-5.4-mini, Claude Haiku 4.5, GPT-5.3 Codex, Claude Sonnet 4.6, GPT-5.4), HyDRA's tunable shortfall threshold spans three regimes: peak-quality exceeds always-strong Claude Sonnet 4.6 baseline (75.4% vs. 74.2% resolution) at 12.9% cost saves; iso-quality Match Sonnet at 54.1% cost saves, a 6x improvement than our internal-house binary router at 9.1%; aggressive pushs saves 72.5% for a 3.2-point quality trade。
結果はLiveCodeBench、BigCodeBench、tau-benchで一般化される。
HyDRAはGitHub CopilotのVS Code Chatオートモードのすべてのユーザにデプロイされ、LLMルーティングの文献の中で初めて、CJK、ヨーロッパ、その他のスクリプトファミリ間の言語不変のルーティングを実演しています。
関連論文リスト
- ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文 参考訳(メタデータ) (2026-05-04T09:07:44Z) - SAGAI-MID: A Generative AI-Driven Middleware for Dynamic Runtime Interoperability [1.2744523252873352]
SAGAI-MIDは、大規模言語モデル(LLM)を使用して実行時にスキーマミスマッチを動的に検出し、解決するFastAPIである。
SAGAI-MIDは、バージョンマイグレーション、IoTから分析へのブリッジング、および2つのプロバイダからの6つのLLM間のプロトコル変換にまたがる10の相互運用性シナリオで評価する。
論文 参考訳(メタデータ) (2026-03-30T17:46:41Z) - KAT-Coder-V2 Technical Report [45.53423367042574]
本稿では,KwaiKATチームが開発したエージェントコーディングモデルであるKAT-Coder-V2を紹介する。
KAT-Coder-V2は、エージェントコーディングを5つの専門ドメインに分解する"Specialize-then-Unify"パラダイムを採用している。
我々は、数万の同時サンドボックスインスタンスを持続するモジュラーインフラストラクチャであるKwaiEnvを開発した。
論文 参考訳(メタデータ) (2026-03-29T14:01:35Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Efficient Multi-Model Orchestration for Self-Hosted Large Language Models [2.3275796286410677]
Pick and Spinは、セルフホストのオーケストレーションと経済性を実現するフレームワークである。
統合されたHelmベースのデプロイメントシステム、適応型スケールツーゼロ自動化、ハイブリッドルーティングモジュールを統合している。
最大21.6%の成功率、30%のレイテンシ、クエリ毎のコストの33%削減を実現している。
論文 参考訳(メタデータ) (2025-12-26T22:42:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。
23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。
GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文 参考訳(メタデータ) (2025-08-08T17:21:06Z) - I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution [0.0580448704422069]
本稿では,Cプログラムの著者帰属に関する最初の体系的研究について述べる。
CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する新しいモデルです。
本モデルでは,近縁なモデルによって生成されたCプログラムを97.56%の精度で識別する。
論文 参考訳(メタデータ) (2025-06-18T19:49:41Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。