論文の概要: Large Language Model Routing with Benchmark Datasets
- arxiv url: http://arxiv.org/abs/2309.15789v1
- Date: Wed, 27 Sep 2023 17:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:44:14.150879
- Title: Large Language Model Routing with Benchmark Datasets
- Title(参考訳): ベンチマークデータセットを用いた大規模言語モデルルーティング
- Authors: Tal Shnitzer, Anthony Ou, M\'irian Silva, Kate Soule, Yuekai Sun,
Justin Solomon, Neil Thompson, Mikhail Yurochkin
- Abstract要約: 通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
- 参考スコア(独自算出の注目度): 40.42044096089315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a rapidly growing number of open-source Large Language Models (LLMs)
and benchmark datasets to compare them. While some models dominate these
benchmarks, no single model typically achieves the best accuracy in all tasks
and use cases. In this work, we address the challenge of selecting the best LLM
out of a collection of models for new tasks. We propose a new formulation for
the problem, in which benchmark datasets are repurposed to learn a "router"
model for this LLM selection, and we show that this problem can be reduced to a
collection of binary classification tasks. We demonstrate the utility and
limitations of learning model routers from various benchmark datasets, where we
consistently improve performance upon using any single model for all tasks.
- Abstract(参考訳): それらを比較するために、オープンソースの大規模言語モデル(llm)とベンチマークデータセットが急速に増えている。
いくつかのモデルがこれらのベンチマークを支配しているが、単一のモデルがすべてのタスクとユースケースで最高の精度を達成することはない。
本研究では,新しいタスクのためのモデルの集合から最高のLCMを選択するという課題に対処する。
本稿では,このllm選択のための"ルーター"モデルを学ぶために,ベンチマークデータセットを再利用する問題に対する新しい定式化を提案し,この問題をバイナリ分類タスクの集合に還元できることを示す。
様々なベンチマークデータセットからモデルルータを学習するの有用性と限界を実証し、すべてのタスクに単一モデルを使用することで、一貫してパフォーマンスを向上させる。
関連論文リスト
- Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Enhancing Subtask Performance of Multi-modal Large Language Model [12.033301861738952]
MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
論文 参考訳(メタデータ) (2023-08-31T05:37:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Merlion: A Machine Learning Library for Time Series [73.46386700728577]
Merlionは時系列のためのオープンソースの機械学習ライブラリである。
モデルの統一インターフェースと、異常検出と予測のためのデータセットを備えている。
Merlionはまた、本番環境でのモデルのライブデプロイメントと再トレーニングをシミュレートするユニークな評価フレームワークも提供する。
論文 参考訳(メタデータ) (2021-09-20T02:03:43Z) - Event Classification with Multi-step Machine Learning [0.0]
マルチステップ機械学習(ML)は、既知の中間推論目標を持つ接続されたサブタスクに編成される。
分散アーキテクチャサーチ(DARTS)と単一パスワンショットNAS(SPOS-NAS)をテストし、損失関数の構築を改善し、すべてのMLモデルをスムーズに学習する。
DARTSとSPOS-NASを最適化と選択、多段階機械学習システムとの接続として使用することにより、(1)高パフォーマンスモデルの組み合わせを迅速かつうまく選択でき、(2)グリッドサーチなどのベースラインアルゴリズムと整合性があることがわかった。
論文 参考訳(メタデータ) (2021-06-04T07:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。