論文の概要: Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing
- arxiv url: http://arxiv.org/abs/2509.25535v1
- Date: Mon, 29 Sep 2025 21:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.339813
- Title: Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing
- Title(参考訳): メタルータ:大規模言語モデルルーティングにおけるゴールドスタンダードとプライオリティに基づく評価
- Authors: Yichi Zhang, Fangzheng Xie, Shu Yang, Chong Wu,
- Abstract要約: 大規模言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルだが、応答の真の品質を反映することにはバイアスが伴うことが多い。
我々は、好みデータバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
- 参考スコア(独自算出の注目度): 15.724480880994259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language tasks that require extensive human--model interaction, deploying a single "best" model for every query can be expensive. To reduce inference cost while preserving the quality of the responses, a large language model (LLM) router selects the most appropriate model from a pool of candidates for each query. A central challenge to training a high-quality router is the scarcity of reliable supervision. Gold-standard data (e.g., expert-verified labels or rubric-based scores) provide accurate quality evaluations of LLM responses but are costly and difficult to scale. In contrast, preference-based data, collected via crowdsourcing or LLM-as-a-judge systems, are cheaper and more scalable, yet often biased in reflecting the true quality of responses. We cast the problem of LLM router training with combined gold-standard and preference-based data into a causal inference framework by viewing the response evaluation mechanism as the treatment assignment. This perspective further reveals that the bias in preference-based data corresponds to the well-known causal estimand: the conditional average treatment effect. Based on this new perspective, we develop an integrative causal router training framework that corrects preference-data bias, address imbalances between two data sources, and improve routing robustness and efficiency. Numerical experiments demonstrate that our approach delivers more accurate routing and improves the trade-off between cost and quality.
- Abstract(参考訳): 大規模なヒューマン-モデルインタラクションを必要とする言語タスクでは、クエリ毎に単一の"ベスト"モデルをデプロイするのはコストがかかる。
応答の質を保ちながら推論コストを低減するため、大きな言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
高品質なルータをトレーニングする上での中心的な課題は、信頼性の高い監視の欠如である。
金標準データ(例えば、専門家が検証したラベルやルーリックベースのスコア)は、LCM応答の正確な品質評価を提供するが、コストが高く、スケールが難しい。
対照的に、クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルであるが、応答の真の品質を反映する傾向がしばしばある。
我々は、応答評価機構を処理課題として見ることにより、LLMルータのトレーニングにゴールドスタンダードとプライオリティベースのデータを組み合わせた問題を因果推論フレームワークにキャストした。
この観点から、嗜好に基づくデータのバイアスは、よく知られた因果推定値(条件平均処理効果)に対応していることが明らかとなった。
この新たな視点に基づいて、好みデータのバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
数値実験により,提案手法はより正確なルーティングを実現し,コストと品質のトレードオフを改善する。
関連論文リスト
- One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection [3.872690949369412]
計算コストと性能プロファイルの異なる大規模言語モデル(LLM)は、現実世界のアプリケーションにスケーラブルでコスト効率の良いデプロイを実現する上で重要な課題である。
我々は、単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化する統一的なルーティングフレームワークを導入する。
我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
論文 参考訳(メタデータ) (2025-09-11T18:29:09Z) - Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - Addressing Data Quality Decompensation in Federated Learning via Dynamic Client Selection [7.603415982653868]
Shapley-Bid Reputation Optimated Federated Learning (SBRO-FL)は、動的入札、評判モデリング、コスト認識の選択を統合する統合フレームワークである。
予測理論にインスパイアされた評価システムは、矛盾を罰しながら歴史的なパフォーマンスを捉えている。
FashionMNIST, EMNIST, CIFAR-10, SVHNデータセットの実験により、SBRO-FLは対向的および低障壁干渉シナリオにおいても精度、収束速度、堅牢性を改善することが示された。
論文 参考訳(メタデータ) (2025-05-27T14:06:51Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Leveraging Uncertainty Estimation for Efficient LLM Routing [20.67188754368684]
エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットから人間の参照データまたは精度メトリクスをルーティング基準として優先順位付けしていた。
我々は、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
論文 参考訳(メタデータ) (2025-02-16T07:08:47Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。