論文の概要: HAPS: Hierarchical LLM Routing with Joint Architecture and Parameter Search
- arxiv url: http://arxiv.org/abs/2601.05903v1
- Date: Fri, 09 Jan 2026 16:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.028928
- Title: HAPS: Hierarchical LLM Routing with Joint Architecture and Parameter Search
- Title(参考訳): HAPS: 統合アーキテクチャとパラメータ検索を備えた階層型LLMルーティング
- Authors: Zihang Tian, Rui Li, Jingsen Zhang, Xiaohe Bo, Wei Huo, Xu Chen,
- Abstract要約: 大規模言語モデル(LLM)ルーティングは、多様なタスクに対して異なるLLMの特殊強度を活用することを目的としている。
本稿では,モデルアーキテクチャとパラメータを協調的に検索する階層型LLMルーティングフレームワークHAPSを紹介する。
2つのよく使われるベンチマークの実験では、HAPSは強いルーティングベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 13.177031415523302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) routing aims to exploit the specialized strengths of different LLMs for diverse tasks. However, existing approaches typically focus on selecting LLM architectures while overlooking parameter settings, which are critical for task performance. In this paper, we introduce HAPS, a hierarchical LLM routing framework that jointly searches over model architectures and parameters. Specifically, we use a high-level router to select among candidate LLM architectures, and then search for the optimal parameters for the selected architectures based on a low-level router. We design a parameter generation network to share parameters between the two routers to mutually enhance their capabilities. In the training process, we design a reward-augmented objective to effectively optimize our framework. Experiments on two commonly used benchmarks show that HAPS consistently outperforms strong routing baselines. We have released our code at https://github.com/zihangtian/HAPS.
- Abstract(参考訳): 大規模言語モデル(LLM)ルーティングは、多様なタスクに対して異なるLLMの特殊強度を活用することを目的としている。
しかし、既存のアプローチは一般的に、タスクのパフォーマンスに重要なパラメータ設定を見下ろしながら、LLMアーキテクチャの選択に重点を置いている。
本稿では,モデルアーキテクチャとパラメータを協調的に探索する階層型LLMルーティングフレームワークHAPSを紹介する。
具体的には、高レベルルータを用いて候補LLMアーキテクチャを選択し、低レベルルータに基づいて選択したアーキテクチャの最適パラメータを探索する。
我々は,2つのルータ間でパラメータを共有するパラメータ生成ネットワークを設計し,その機能を相互に拡張する。
トレーニングプロセスでは,フレームワークを効果的に最適化する報奨対象を設計する。
2つのよく使われるベンチマークの実験では、HAPSは強いルーティングベースラインを一貫して上回っている。
コードについてはhttps://github.com/zihangtian/HAPS.comで公開しています。
関連論文リスト
- HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning [11.03159148013318]
大規模言語モデル(LLM)は多くのタスクにまたがって最先端のパフォーマンスを提供するが、高い計算とメモリコストを課す。
特殊な軽量言語モデルのプールから推論パイプラインを動的に組み立てる階層的ルーティング手法であるHierを提案する。
論文 参考訳(メタデータ) (2025-11-13T02:12:14Z) - LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。