論文の概要: Triage: Routing Software Engineering Tasks to Cost-Effective LLM Tiers via Code Quality Signals
- arxiv url: http://arxiv.org/abs/2604.07494v1
- Date: Wed, 08 Apr 2026 18:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.511501
- Title: Triage: Routing Software Engineering Tasks to Cost-Effective LLM Tiers via Code Quality Signals
- Title(参考訳): トリアージ:コード品質信号によるソフトウェアエンジニアリングタスクのコスト効果 LLM ティアへのルーティング
- Authors: Lech Madeyski,
- Abstract要約: Triageは、コードヘルスメトリクスを使用して、各タスクを最も安価なモデル層に割り当てるフレームワークである。
コードのヘルスメトリクスは、ソフトウェアの保守性を示す指標です。
コスト品質のトレードオフを検証し、どのコードヘルスサブ要素がルーティング決定を駆動しているかを特定するための評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 2.944323057176686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: AI coding agents route every task to a single frontier large language model (LLM), paying premium inference cost even when many tasks are routine. Objectives: We propose Triage, a framework that uses code health metrics -- indicators of software maintainability -- as a routing signal to assign each task to the cheapest model tier whose output passes the same verification gate as the expensive model. Methods: Triage defines three capability tiers (light, standard, heavy -- mirroring, e.g., Haiku, Sonnet, Opus) and routes tasks based on pre-computed code health sub-factors and task metadata. We design an evaluation comparing three routing policies on SWE-bench Lite (300 tasks across three model tiers): heuristic thresholds, a trained ML classifier, and a perfect-hindsight oracle. Results: We analytically derived two falsifiable conditions under which the tier-dependent asymmetry (medium LLMs benefit from clean code while frontier models do not) yields cost-effective routing: the light-tier pass rate on healthy code must exceed the inter-tier cost ratio, and code health must discriminate the required model tier with at least a small effect size ($\hat{p} \geq 0.56$). Conclusion: Triage transforms a diagnostic code quality metric into an actionable model-selection signal. We present a rigorous evaluation protocol to test the cost--quality trade-off and identify which code health sub-factors drive routing decisions.
- Abstract(参考訳): コンテキスト: AIコーディングエージェントはすべてのタスクを単一フロンティアの大規模言語モデル(LLM)にルーティングする。
目的: コードヘルスメトリクス(ソフトウェアの保守性を示す指標)をルーティング信号として使用するフレームワークであるTriageを提案し、各タスクを高価なモデルと同じ検証ゲートを出力する最も安価なモデルティアに割り当てる。
メソッド: Triageは3つの機能ティア(ライト、スタンダード、ヘビー-ミラーリング、Eg、Haiku、Sonnet、Opus)を定義し、事前にコンパイルされたコードヘルスサブファクタとタスクメタデータに基づいてタスクをルーティングする。
我々は,SWE-bench Lite(300タスクを3つのモデル階層で比較した評価を設計する。
結果: 階層依存非対称性(medium LLMs benefit from clean code while frontier model does not not)がコスト効率の高いルーティングをもたらす2つの要因を解析的に導出した。
結論: Triage は診断コード品質指標を実行可能なモデル選択信号に変換する。
本稿では、コスト品質のトレードオフをテストするための厳密な評価プロトコルを提案し、どのコードヘルスサブ要素がルーティング決定を駆動しているかを特定する。
関連論文リスト
- Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。
本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。
2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文 参考訳(メタデータ) (2026-03-25T22:24:11Z) - A Multi-Agent Framework for Code-Guided, Modular, and Verifiable Automated Machine Learning [3.6317933453723232]
iMLは、AutoMLをブラックボックスからコード誘導、モジュール化、検証可能なアーキテクチャパラダイムに移行するために設計された、新しいマルチエージェントフレームワークである。
MLE-BENCHと新たに導入されたiML-BENCHをまたいでiMLを評価する。
論文 参考訳(メタデータ) (2026-02-15T00:20:58Z) - $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks [3.099103925863002]
3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。
各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。
UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。
本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
論文 参考訳(メタデータ) (2026-01-01T12:07:06Z) - SLO-Conditioned Action Routing for Retrieval-Augmented Generation: Objective Ablation and Failure Modes [0.0]
この作業では、クエリ毎の制御を、検索深さと生成モード(ガードされている対auto)を選択する、あるいは拒否する、小さな個別アクションとしてモデル化する。
オフラインログデータセットは、それぞれのアクションと記録精度、トークンコスト、幻覚/拒絶指標、SLO重み付き報酬を実行することにより、SQuAD 2.0から構築される。
2つのシンプルな政策学習目標が評価され、国家ごとの最良の行動の教師付き分類と報酬重み付き変種が評価される。
論文 参考訳(メタデータ) (2025-12-27T15:37:53Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。