論文の概要: Scalable Prompt Routing via Fine-Grained Latent Task Discovery
- arxiv url: http://arxiv.org/abs/2603.19415v1
- Date: Thu, 19 Mar 2026 19:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.845089
- Title: Scalable Prompt Routing via Fine-Grained Latent Task Discovery
- Title(参考訳): 細粒化潜在タスクディスカバリによるスケーラブルなプロンプトルーティング
- Authors: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis,
- Abstract要約: プロンプトルーティングは、クエリ毎に候補のプールから最も適切な大きな言語モデルを動的に選択する。
本稿では,タスクの自動検出とタスク認識品質推定により,制約に対処する2段階のルーティングアーキテクチャを提案する。
提案手法は,既存のベースラインを常に上回り,最強の個人モデルを超えながら,コストの半減を図っている。
- 参考スコア(独自算出の注目度): 40.09386703805293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.
- Abstract(参考訳): プロンプトルーティングは、クエリ毎に候補のプールから最も適切な大きな言語モデルを動的に選択し、コストを管理しながらパフォーマンスを最適化する。
モデルプールが数十のフロンティアモデルを含み、パフォーマンスギャップが狭いため、既存のアプローチでは重大な課題に直面している。
本稿では,これらの制約に対処する2段階のルーティングアーキテクチャを提案する。
最初のステージでは、グラフベースのクラスタリングを使用して、潜在タスクタイプを発見し、発見タスクにプロンプトを割り当てるように分類器を訓練しています。
第2ステージでは、専門的な品質推定のために、タスク固有の予測ヘッドを備えた、エキスパートの混在アーキテクチャを使用する。
推論では、両方の段階から予測を集約し、タスクレベルの安定性とアクシデント固有の適応性とのバランスをとる。
11のフロンティアモデルを持つ10のベンチマークで評価し、我々の手法は既存のベースラインを一貫して上回り、最強の個人モデルを超えながら、コストの半分以下を発生させる。
関連論文リスト
- PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。