論文の概要: Online Multi-LLM Selection via Contextual Bandits under Unstructured Context Evolution
- arxiv url: http://arxiv.org/abs/2506.17670v1
- Date: Sat, 21 Jun 2025 10:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.532508
- Title: Online Multi-LLM Selection via Contextual Bandits under Unstructured Context Evolution
- Title(参考訳): 非構造化文脈進化下における文脈帯域によるオンラインマルチLLM選択
- Authors: Manhin Poon, XiangXiang Dai, Xutong Liu, Fang Kong, John C. S. Lui, Jinhang Zuo,
- Abstract要約: 大規模言語モデル(LLM)は多様な応答挙動、コスト、強度を示す。
我々はLinUCBに基づくアルゴリズムを開発し、将来の文脈予測に頼ることなく、確実にサブ線形後悔を実現する。
私たちのアルゴリズムは理論的に根拠があり、オフラインの微調整やデータセット固有のトレーニングは必要ありません。
- 参考スコア(独自算出の注目度): 31.385024956599676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit diverse response behaviors, costs, and strengths, making it challenging to select the most suitable LLM for a given user query. We study the problem of adaptive multi-LLM selection in an online setting, where the learner interacts with users through multi-step query refinement and must choose LLMs sequentially without access to offline datasets or model internals. A key challenge arises from unstructured context evolution: the prompt dynamically changes in response to previous model outputs via a black-box process, which cannot be simulated, modeled, or learned. To address this, we propose the first contextual bandit framework for sequential LLM selection under unstructured prompt dynamics. We formalize a notion of myopic regret and develop a LinUCB-based algorithm that provably achieves sublinear regret without relying on future context prediction. We further introduce budget-aware and positionally-aware (favoring early-stage satisfaction) extensions to accommodate variable query costs and user preferences for early high-quality responses. Our algorithms are theoretically grounded and require no offline fine-tuning or dataset-specific training. Experiments on diverse benchmarks demonstrate that our methods outperform existing LLM routing strategies in both accuracy and cost-efficiency, validating the power of contextual bandits for real-time, adaptive LLM selection.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様な応答挙動、コスト、強度を示しており、与えられたユーザクエリに最も適したLSMを選択することは困難である。
オンライン環境での適応型マルチLLM選択の問題について検討し、学習者は複数段階のクエリ改善を通じてユーザと対話し、オフラインのデータセットやモデル内部にアクセスせずに順次LLMを選択する必要がある。
重要な課題は、非構造的文脈の進化から生じている: シミュレーション、モデル化、学習ができないブラックボックスプロセスを通じて、以前のモデル出力に対する応答が動的に変化すること。
そこで本稿では,非構造的プロンプト動的条件下での逐次LLM選択のための第1のコンテキスト的帯域幅フレームワークを提案する。
我々は、ミオピック後悔の概念を定式化し、将来の文脈予測に頼ることなく、確実にサブ線形後悔を実現するLinUCBベースのアルゴリズムを開発する。
さらに,早期の質の高い応答に対するクエリコストやユーザの嗜好に対応するため,予算意識と位置認識(早期の満足度を優先する)の拡張も導入する。
私たちのアルゴリズムは理論的に根拠があり、オフラインの微調整やデータセット固有のトレーニングは必要ありません。
各種ベンチマーク実験により,提案手法は従来のLCMルーティング手法よりも精度とコスト効率に優れており,リアルタイムかつ適応的なLCM選択のためのコンテキスト帯域の有効性を検証している。
関連論文リスト
- Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification [31.120233988281328]
適応LDM応答同定のためのtextitMACO (UnderlineMulti-underlineAgent UnderlineConversational UnderlineOnline Learning) を提案する。
ユーザの嗜好を喚起するための会話を適応的に行うための新しい対話機構を提案する。
cadi は、オンライン LLM 応答同定において、現在の最先端を著しく上回る。
論文 参考訳(メタデータ) (2025-01-03T14:59:38Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。