論文の概要: Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits
- arxiv url: http://arxiv.org/abs/2403.07213v1
- Date: Mon, 11 Mar 2024 23:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:23:30.061495
- Title: Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits
- Title(参考訳): どのLLMをプレイするか?
時間短縮バンディットを用いたコンバージェンスアウェアオンラインモデル選択
- Authors: Yu Xia, Fang Kong, Tong Yu, Liya Guo, Ryan A. Rossi, Sungchul Kim,
Shuai Li
- Abstract要約: 本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
- 参考スコア(独自算出の注目度): 43.65904435249823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web-based applications such as chatbots, search engines and news
recommendations continue to grow in scale and complexity with the recent surge
in the adoption of LLMs. Online model selection has thus garnered increasing
attention due to the need to choose the best model among a diverse set while
balancing task reward and exploration cost. Organizations faces decisions like
whether to employ a costly API-based LLM or a locally finetuned small LLM,
weighing cost against performance. Traditional selection methods often evaluate
every candidate model before choosing one, which are becoming impractical given
the rising costs of training and finetuning LLMs. Moreover, it is undesirable
to allocate excessive resources towards exploring poor-performing models. While
some recent works leverage online bandit algorithm to manage such
exploration-exploitation trade-off in model selection, they tend to overlook
the increasing-then-converging trend in model performances as the model is
iteratively finetuned, leading to less accurate predictions and suboptimal
model selections.
In this paper, we propose a time-increasing bandit algorithm TI-UCB, which
effectively predicts the increase of model performances due to finetuning and
efficiently balances exploration and exploitation in model selection. To
further capture the converging points of models, we develop a change detection
mechanism by comparing consecutive increase predictions. We theoretically prove
that our algorithm achieves a logarithmic regret upper bound in a typical
increasing bandit setting, which implies a fast convergence rate. The advantage
of our method is also empirically validated through extensive experiments on
classification model selection and online selection of LLMs. Our results
highlight the importance of utilizing increasing-then-converging pattern for
more efficient and economic model selection in the deployment of LLMs.
- Abstract(参考訳): チャットボット、検索エンジン、ニュースレコメンデーションといったWebベースのアプリケーションは、最近のLLMの採用の増加に伴い、規模と複雑さが拡大し続けている。
オンラインモデル選択は、タスク報酬と探索コストのバランスを保ちながら、多様なセットの中で最高のモデルを選択する必要があるため、注目を集めている。
組織は、高価なAPIベースのLLMを採用するか、ローカルに調整された小さなLLMを使うか、パフォーマンスに対するコストを重んじるかといった決定に直面します。
従来の選別法では、LLMの訓練と微調整のコストが増大しているため、候補モデルを選定する前に評価することが多い。
さらに、過剰なリソースを貧弱なモデルの探索に割り当てることは望ましくない。
オンラインバンディットアルゴリズムを利用して、モデル選択におけるそのような探索・探索トレードオフを管理する最近の研究もあるが、モデルが反復的に微調整されているため、モデル性能の収束傾向は見過ごされがちである。
本稿では,細粒化によるモデル性能の増大を効果的に予測し,モデル選択における探索とエクスプロイトの効率よくバランスをとる,時間増加バンディットアルゴリズムTI-UCBを提案する。
さらにモデルの収束点を捉えるために,連続的な増加予測を比較することで変化検出機構を開発する。
理論上,本アルゴリズムは,収束速度が速い典型的なバンディット設定において,対数的後悔の上限値を達成することを証明している。
また, LLMの分類モデル選択とオンライン選択に関する広範な実験を通じて, 本手法の利点を実証的に検証した。
本研究は,LLMの展開において,より効率的かつ経済的なモデル選択のために,拡張収束パターンを活用することの重要性を強調した。
関連論文リスト
- Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。