論文の概要: LLM Routing with Dueling Feedback
- arxiv url: http://arxiv.org/abs/2510.00841v1
- Date: Wed, 01 Oct 2025 12:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.564062
- Title: LLM Routing with Dueling Feedback
- Title(参考訳): デューリングフィードバックを用いたLLMルーティング
- Authors: Chao-Kai Chiang, Takashi Ishida, Masashi Sugiyama,
- Abstract要約: ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
- 参考スコア(独自算出の注目度): 49.67815163970033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study LLM routing, the problem of selecting the best model for each query while balancing user satisfaction, model expertise, and inference cost. We formulate routing as contextual dueling bandits, learning from pairwise preference feedback rather than absolute scores, thereby yielding label-efficient and dynamic adaptation. Building on this formulation, we introduce Category-Calibrated Fine-Tuning (CCFT), a representation-learning method that derives model embeddings from offline data using contrastive fine-tuning with categorical weighting. These embeddings enable the practical instantiation of Feel-Good Thompson Sampling for Contextual Dueling Bandits (FGTS.CDB), a theoretically grounded posterior-sampling algorithm. We propose four variants of the categorical weighting that explicitly integrate model quality and cost, and we empirically evaluate the proposed methods on the RouterBench and MixInstruct datasets. Across both benchmarks, our methods achieve lower cumulative regret and faster convergence, with better robustness and performance-cost balance than strong baselines built with a general-purpose OpenAI embedding model.
- Abstract(参考訳): LLMルーティングは,ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択する問題である。
ルーティングをコンテキストデュエル帯域として定式化し、絶対スコアよりもペアの選好フィードバックから学習することで、ラベル効率と動的適応が得られる。
この定式化に基づいて、分類的重み付けを用いた対照的な微調整を用いて、オフラインデータからモデル埋め込みを導出する表現学習法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
これらの埋め込みにより、理論的に基底化された後方サンプリングアルゴリズムであるFGTS.CDB (Contextual Dueling Bandits) のためのFeel-Good Thompson Smplingの実用的なインスタンス化が可能になる。
モデル品質とコストを明確に統合した分類重み付けの4つの変種を提案し,提案手法をLuterBenchおよびMixInstructデータセット上で実証的に評価した。
両ベンチマークとも, 汎用OpenAI埋め込みモデルで構築した強力なベースラインよりも, 堅牢性と性能・コストのバランスが向上し, 累積的後悔の低減と収束の高速化を実現している。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives [17.10165955576643]
現在の最先端の実証技術は、実用的で非分解不能な性能目標に対して、準最適性能を提供する。
本稿では,SelMixを提案する。SelMixは,事前学習モデルに対して,選択型ミキサアップに基づく安価な微調整技術である。
提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:55:23Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - A Deep Learning Method for Comparing Bayesian Hierarchical Models [1.6736940231069393]
本稿では,任意の階層モデルに対してベイズモデルの比較を行う深層学習手法を提案する。
提案手法は,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。
論文 参考訳(メタデータ) (2023-01-27T17:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。