論文の概要: LLM Router: Prefill is All You Need
- arxiv url: http://arxiv.org/abs/2603.20895v1
- Date: Sat, 21 Mar 2026 17:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.137611
- Title: LLM Router: Prefill is All You Need
- Title(参考訳): LLMルータ:プリフィルは必要なだけ
- Authors: Tanay Varshney, Annie Surla, Michelle Xu, Gomathy Venkata Krishnan, Maximilian Jeblick, David Austin, Neal Vaidya, Davide Onofrio,
- Abstract要約: 完全なフォアビジョンを持つOracleルータは、スタンドアロンモデルの精度を大幅に上回る可能性がある。
ターゲットデカップリングによる内部プリフィルアクティベーションの利用を提案する。
我々は、最適層ワイド信号を分離するために、フィッシャー分離性(J)と有効次元(d_eff)を数学的プローブとして利用する。
- 参考スコア(独自算出の注目度): 0.8712940460270026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs often share comparable benchmark accuracies, but their complementary performance across task subsets suggests that an Oracle router--a theoretical selector with perfect foresight--can significantly surpass standalone model accuracy by navigating model-specific strengths. While current routers rely on fragile semantic signals, we propose using internal prefill activations via Encoder-Target Decoupling--a functional separation between the model providing the predictive signal (the Encoder) and the model whose performance is being estimated (the Target). This allows optimized heterogeneous pairing between unique encoders and target models. We utilize Fisher Separability (J) and Effective Dimensionality (d_eff) as mathematical probes to isolate optimal layer-wise signals, providing the predictive foundation for our SharedTrunkNet architecture. SharedTrunkNet captures up to 45.58% of the accuracy gap between the strongest standalone model and the Oracle while achieving 74.31% cost savings relative to the highest-cost model.
- Abstract(参考訳): LLMは、しばしば同等のベンチマーク精度を共有するが、それらのタスクサブセット間の補完的なパフォーマンスは、Oracleのルータ -- 完全なフォアビジョンを持つ理論的セレクタ -- が、モデル固有の強みをナビゲートすることで、スタンドアローンモデルの精度を大幅に上回る可能性があることを示唆している。
現在のルータは、脆弱なセマンティック信号に依存しているが、予測信号(エンコーダ)を提供するモデルと性能を推定するモデル(ターゲット)を機能的に分離するEncoder-Target Decouplingを介して、内部のプリフィルアクティベーションを使用することを提案する。
これにより、ユニークなエンコーダとターゲットモデル間の最適化された異種ペアリングが可能になる。
我々は,Fisher Separability(J)とEffective dimensionality(d_eff)を数学的プローブとして用いて,最適な層次信号を分離し,SharedTrunkNetアーキテクチャの予測基盤を提供する。
SharedTrunkNetは、最強のスタンドアロンモデルとOracleの精度ギャップの最大45.58%を捉え、最高コストモデルと比較して74.31%のコスト削減を達成した。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。
異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。