論文の概要: Causal LLM Routing: End-to-End Regret Minimization from Observational Data
- arxiv url: http://arxiv.org/abs/2505.16037v1
- Date: Wed, 21 May 2025 21:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.92347
- Title: Causal LLM Routing: End-to-End Regret Minimization from Observational Data
- Title(参考訳): 因果LLMルーティング:観測データから端から端までのレグレット最小化
- Authors: Asterios Tsiourvas, Wei Sun, Georgia Perakis,
- Abstract要約: LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.3580884064577616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM routing aims to select the most appropriate model for each query, balancing competing performance metrics such as accuracy and cost across a pool of language models. Prior approaches typically adopt a decoupled strategy, where the metrics are first predicted and the model is then selected based on these estimates. This setup is prone to compounding errors and often relies on full-feedback data, where each query is evaluated by all candidate models, which is costly to obtain and maintain in practice. In contrast, we learn from observational data, which records only the outcome of the model actually deployed. We propose a causal end-to-end framework that learns routing policies by minimizing decision-making regret from observational data. To enable efficient optimization, we introduce two theoretically grounded surrogate objectives: a classification-based upper bound, and a softmax-weighted regret approximation shown to recover the optimal policy at convergence. We further extend our framework to handle heterogeneous cost preferences via an interval-conditioned architecture. Experiments on public benchmarks show that our method outperforms existing baselines, achieving state-of-the-art performance across different embedding models.
- Abstract(参考訳): LLMルーティングは、クエリ毎に最も適切なモデルを選択し、言語モデルのプール間で精度やコストといった競合するパフォーマンスメトリクスのバランスをとることを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
このセットアップはエラーを複雑にしがちで、多くの場合はフルフィードバックのデータに依存し、各クエリはすべての候補モデルによって評価される。
対照的に、実際にデプロイされたモデルの結果のみを記録する観測データから学習する。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
効率的な最適化を実現するために,分類に基づく上界とソフトマックス重み付き後悔近似という2つの理論的基礎を持つサロゲート目標を導入する。
さらに、インターバル条件アーキテクチャにより、不均一なコスト優先を扱うようにフレームワークを拡張します。
公開ベンチマーク実験の結果,提案手法は既存のベースラインよりも優れており,組込みモデルにまたがる最先端性能を実現していることがわかった。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives [17.10165955576643]
現在の最先端の実証技術は、実用的で非分解不能な性能目標に対して、準最適性能を提供する。
本稿では,SelMixを提案する。SelMixは,事前学習モデルに対して,選択型ミキサアップに基づく安価な微調整技術である。
提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:55:23Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus Sample Average Approximation: A Stochastic Dominance Perspective [21.945745750737952]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。