Fugu-MT 論文翻訳(概要): RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing

論文の概要: RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing

arxiv url: http://arxiv.org/abs/2506.03880v1
Date: Wed, 04 Jun 2025 12:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.317641
Title: RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing
Title（参考訳）: RadialRouter: 効率的かつロバストな大規模言語モデルルーティングのための構造化表現
Authors: Ruihan Jin, Pengpeng Shao, Zhengqi Wen, Jinyang Wu, Mingkuan Feng, Shuai Zhang, Jianhua Tao,
Abstract要約: Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
参考スコア（独自算出の注目度）: 31.446419903916425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancements in large language models (LLMs) have led to the emergence of routing techniques, which aim to efficiently select the optimal LLM from diverse candidates to tackle specific tasks, optimizing performance while reducing costs. Current LLM routing methods are limited in effectiveness due to insufficient exploration of the intrinsic connection between user queries and the characteristics of LLMs. To address this issue, in this paper, we present RadialRouter, a novel framework for LLM routing which employs a lightweight Transformer-based backbone with a radial structure named RadialFormer to articulate the query-LLMs relationship. The optimal LLM selection is performed based on the final states of RadialFormer. The pipeline is further refined by an objective function that combines Kullback-Leibler divergence with the query-query contrastive loss to enhance robustness. Experimental results on RouterBench show that RadialRouter significantly outperforms existing routing methods by 9.2\% and 5.8\% in the Balance and Cost First scenarios, respectively. Additionally, its adaptability toward different performance-cost trade-offs and the dynamic LLM pool demonstrates practical application potential.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、様々な候補から最適LLMを効率的に選択し、性能を最適化し、コストを削減できるルーティング手法の出現につながっている。現在のLLMルーティング手法は,ユーザクエリとLLMの特性との間の本質的な接続の探索が不十分なため,有効性に制限されている。本稿では,LLMルーティングのための新しいフレームワークであるRadialRouterについて述べる。このフレームワークは軽量なTransformerベースのバックボーンとRadialFormerというラジアル構造を用いてクエリとLLMの関係を記述している。 RadialFormerの最終状態に基づいて最適LLM選択を行う。パイプラインはさらに、Kulback-Leiblerの発散とクエリクエリのコントラスト損失を組み合わせ、堅牢性を高める客観的関数によって洗練される。 RouterBenchの実験結果は、RadarRouterが既存のルーティング手法を9.2\%と5.8\%で大幅に上回っていることを示している。さらに、異なるパフォーマンスコストのトレードオフに対する適応性と動的LLMプールは、実用的な応用可能性を示している。

関連論文リスト

Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。 RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文参考訳（メタデータ） (2026-02-26T02:45:22Z)
Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。 ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-10-14T17:51:26Z)
LLMRank: Understanding LLM Strengths for Model Routing [2.166956880697874]
本稿では,プロンプトから抽出したリッチで可読な機能を活用するプロンプト対応ルーティングフレームワークであるLLMRankを紹介する。遅延埋め込みのみに依存する従来のワンショットルータとは異なり、LLMRankは、RuterBenchでトレーニングされたニューラルネットワークランキングモデルを使用して、モデル毎のユーティリティを予測する。提案手法は,最大89.2%のオラクルユーティリティを実現すると同時に,ルーティング決定を説明する解釈可能な機能属性を提供する。
論文参考訳（メタデータ） (2025-09-23T18:11:30Z)
RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文参考訳（メタデータ） (2025-06-10T17:56:45Z)
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory [26.39979967537193]
大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて例外的な性能を示した。強力なモデルはより良い結果をもたらすが、より小さなモデルはよりコスト効率が良いが、能力は低い。ユーザクエリを最適なLLMに効率的にルーティングするマルチLLMルーティングフレームワークであるIRT-Merciを提案する。
論文参考訳（メタデータ） (2025-06-01T15:14:58Z)
Query Routing for Retrieval-Augmented Language Models [38.05904245087491]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文参考訳（メタデータ） (2025-05-29T03:44:56Z)
Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。 R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文参考訳（メタデータ） (2025-05-28T08:17:57Z)
OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。