論文の概要: Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks
- arxiv url: http://arxiv.org/abs/2508.09958v2
- Date: Sun, 17 Aug 2025 17:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.898234
- Title: Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks
- Title(参考訳): ニューラルバンドに基づくタスクパイプラインのための最適LCM選択
- Authors: Baran Atalar, Eddie Zhang, Carlee Joe-Wong,
- Abstract要約: 本稿では,各サブタスク上でLLMの成功をオンラインにモデル化するニューラルネットワークをトレーニングするニューラルネットワークのコンテキスト帯域ベースアルゴリズムを提案する。
通信質問応答と診断予測データセットの実験から,提案手法の有効性が示唆された。
- 参考スコア(独自算出の注目度): 11.389019661082415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity of large language models (LLMs) for a variety of tasks, there has been a growing interest in strategies that can predict which out of a set of LLMs will yield a successful answer at low cost. This problem promises to become more and more relevant as providers like Microsoft allow users to easily create custom LLM "assistants" specialized to particular types of queries. However, some tasks (i.e., queries) may be too specialized and difficult for a single LLM to handle alone. These applications often benefit from breaking down the task into smaller subtasks, each of which can then be executed by a LLM expected to perform well on that specific subtask. For example, in extracting a diagnosis from medical records, one can first select an LLM to summarize the record, select another to validate the summary, and then select another, possibly different, LLM to extract the diagnosis from the summarized record. Unlike existing LLM selection or routing algorithms, this setting requires that we select a sequence of LLMs, with the output of each LLM feeding into the next and potentially influencing its success. Thus, unlike single LLM selection, the quality of each subtask's output directly affects the inputs, and hence the cost and success rate, of downstream LLMs, creating complex performance dependencies that must be learned and accounted for during selection. We propose a neural contextual bandit-based algorithm that trains neural networks that model LLM success on each subtask in an online manner, thus learning to guide the LLM selections for the different subtasks, even in the absence of historical LLM performance data. Experiments on telecommunications question answering and medical diagnosis prediction datasets illustrate the effectiveness of our proposed approach compared to other LLM selection algorithms.
- Abstract(参考訳): 様々なタスクに対する大規模言語モデル(LLM)の普及に伴い、LLMのどのセットが低コストで成功するかを予測できる戦略への関心が高まっている。
この問題は、Microsoftのようなプロバイダが、ユーザが特定のタイプのクエリに特化したカスタムLLM "アシスト"を簡単に作成できるように、ますます関連性を高めていくことを約束している。
しかし、いくつかのタスク(すなわちクエリ)は、単一のLLMが単独で扱うのが困難でありすぎる。
これらのアプリケーションは、タスクを小さなサブタスクに分割することで恩恵を受けることが多く、それぞれのサブタスクは、その特定のサブタスクでうまく動作することが期待されるLCMによって実行される。
例えば、医療記録から診断を抽出する際、まずLSMを選択して要約し、別のLSMを選択してその要約を検証し、次に別のLSMを選択して要約されたレコードから診断を抽出することができる。
既存のLLM選択アルゴリズムやルーティングアルゴリズムとは異なり、この設定では、各LLMの出力が次のLLMに供給され、その成功に影響を与える可能性がある。
したがって、単一のLCM選択とは異なり、各サブタスクの出力の品質は入力に直接影響を与え、従って下流LSMのコストと成功率に影響を与え、選択中に学習し、考慮しなければならない複雑なパフォーマンス依存を生成する。
そこで我々は,従来のLLM性能データがない場合でも,各サブタスクにおけるLLM成功をオンラインにモデル化するニューラルネットワークをトレーニングし,異なるサブタスクに対するLLM選択のガイドを学習するアルゴリズムを提案する。
通信質問応答と診断予測データセットの実験は、他のLLM選択アルゴリズムと比較して提案手法の有効性を示している。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Smoothie: Label Free Language Model Routing [39.88041397482366]
大規模言語モデル(LLM)は、LLM入力が多くの異なるタスクにまたがるアプリケーションでますます使われている。
Smoothieは、ラベル付きデータを必要としない、監督にインスパイアされた弱いルーティング手法である。
SmoothieのLLMの品質スコアは、地上モデルの品質と相関している。
論文 参考訳(メタデータ) (2024-12-06T01:06:37Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。