論文の概要: Large Language Model Routing with Benchmark Datasets
- arxiv url: http://arxiv.org/abs/2309.15789v1
- Date: Wed, 27 Sep 2023 17:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:44:14.150879
- Title: Large Language Model Routing with Benchmark Datasets
- Title(参考訳): ベンチマークデータセットを用いた大規模言語モデルルーティング
- Authors: Tal Shnitzer, Anthony Ou, M\'irian Silva, Kate Soule, Yuekai Sun,
Justin Solomon, Neil Thompson, Mikhail Yurochkin
- Abstract要約: 通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
- 参考スコア(独自算出の注目度): 40.42044096089315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a rapidly growing number of open-source Large Language Models (LLMs)
and benchmark datasets to compare them. While some models dominate these
benchmarks, no single model typically achieves the best accuracy in all tasks
and use cases. In this work, we address the challenge of selecting the best LLM
out of a collection of models for new tasks. We propose a new formulation for
the problem, in which benchmark datasets are repurposed to learn a "router"
model for this LLM selection, and we show that this problem can be reduced to a
collection of binary classification tasks. We demonstrate the utility and
limitations of learning model routers from various benchmark datasets, where we
consistently improve performance upon using any single model for all tasks.
- Abstract(参考訳): それらを比較するために、オープンソースの大規模言語モデル(llm)とベンチマークデータセットが急速に増えている。
いくつかのモデルがこれらのベンチマークを支配しているが、単一のモデルがすべてのタスクとユースケースで最高の精度を達成することはない。
本研究では,新しいタスクのためのモデルの集合から最高のLCMを選択するという課題に対処する。
本稿では,このllm選択のための"ルーター"モデルを学ぶために,ベンチマークデータセットを再利用する問題に対する新しい定式化を提案し,この問題をバイナリ分類タスクの集合に還元できることを示す。
様々なベンチマークデータセットからモデルルータを学習するの有用性と限界を実証し、すべてのタスクに単一モデルを使用することで、一貫してパフォーマンスを向上させる。
関連論文リスト
- Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。
我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。
このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-27T06:58:52Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Enhancing Subtask Performance of Multi-modal Large Language Model [12.033301861738952]
MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
論文 参考訳(メタデータ) (2023-08-31T05:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。