論文の概要: Tryage: Real-time, intelligent Routing of User Prompts to Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.11601v2
- Date: Wed, 23 Aug 2023 17:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:14:27.452759
- Title: Tryage: Real-time, intelligent Routing of User Prompts to Large Language
Models
- Title(参考訳): Tryage: 大規模言語モデルに対するユーザプロンプトのリアルタイムかつインテリジェントなルーティング
- Authors: Surya Narayanan Hari, Matt Thomson
- Abstract要約: Hugging Faceエコシステムには20万以上のモデルがあり、ユーザーは多面的およびデータドメインに適したモデルを選択し、最適化する。
本稿では,言語モデルルータを利用した文脈認識型ルーティングシステムTryageを提案する。
- 参考スコア(独自算出の注目度): 1.0878040851637998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of the transformer architecture and the self-attention
mechanism has led to an explosive production of language models trained on
specific downstream tasks and data domains. With over 200, 000 models in the
Hugging Face ecosystem, users grapple with selecting and optimizing models to
suit multifaceted workflows and data domains while addressing computational,
security, and recency concerns. There is an urgent need for machine learning
frameworks that can eliminate the burden of model selection and customization
and unleash the incredible power of the vast emerging model library for end
users. Here, we propose a context-aware routing system, Tryage, that leverages
a language model router for optimal selection of expert models from a model
library based on analysis of individual input prompts. Inspired by the thalamic
router in the brain, Tryage employs a perceptive router to predict down-stream
model performance on prompts and, then, makes a routing decision using an
objective function that integrates performance predictions with user goals and
constraints that are incorporated through flags (e.g., model size, model
recency). Tryage allows users to explore a Pareto front and automatically
trade-off between task accuracy and secondary goals including minimization of
model size, recency, security, verbosity, and readability. Across heterogeneous
data sets that include code, text, clinical data, and patents, the Tryage
framework surpasses Gorilla and GPT3.5 turbo in dynamic model selection
identifying the optimal model with an accuracy of 50.9% , compared to 23.6% by
GPT 3.5 Turbo and 10.8% by Gorilla. Conceptually, Tryage demonstrates how
routing models can be applied to program and control the behavior of
multi-model LLM systems to maximize efficient use of the expanding and evolving
language model ecosystem.
- Abstract(参考訳): トランスフォーマーアーキテクチャとセルフアテンション機構の導入は、特定のダウンストリームタスクとデータドメインでトレーニングされた言語モデルの爆発的な生産につながった。
Hugging Faceエコシステムには20万以上のモデルがあり、ユーザは、計算、セキュリティ、リプライの懸念に対処しながら、多面的なワークフローとデータドメインに適したモデルを選択し、最適化する。
モデル選択とカスタマイズの負担を排除し、エンドユーザのための巨大な新興モデルライブラリの驚くべきパワーを解き放つ、機械学習フレームワークが緊急に必要である。
本稿では,個々の入力プロンプトの分析に基づいて,モデルライブラリからエキスパートモデルの最適選択を行うための言語モデルルータを利用する,コンテキスト対応ルーティングシステムであるtryageを提案する。
脳の視床ルータにインスパイアされたtryageは、プロンプトでダウンストリームモデルのパフォーマンスを予測するための知覚的ルータを使用して、パフォーマンス予測とユーザ目標とフラグ(モデルサイズ、モデルレジェンシーなど)によって組み込まれた制約を統合する客観的関数を使用してルーティングを決定する。
tryageを使えば,paretoフロントを探索して,モデルサイズやレジェンシ,セキュリティ,冗長性,可読性といった2次目標とタスクの正確性を自動的にトレードオフすることが可能になります。
コード、テキスト、臨床データ、特許を含む異種データセット全体にわたって、TryageフレームワークはゴリラとGPT3.5ターボを上回り、最適モデルを50.9%の精度で識別し、GPT3.5ターボは23.6%、ゴリラは10.8%である。
概念的に、tryageは、拡張および進化する言語モデルエコシステムの効率的な利用を最大化するために、マルチモデルllmシステムの動作をプログラムおよび制御するためにルーティングモデルをどのように適用できるかを実証する。
関連論文リスト
- Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values [17.489279048199304]
REFRESHは、いくつかの新しいモデルをトレーニングすることなく、モデルパフォーマンスに望ましい追加の制約を達成できるように、機能を再選択する手法である。
REFRESHの基盤となるアルゴリズムは、SHAP値と相関解析を用いて、モデルをトレーニングすることなくモデルの予測を近似できる新しい手法である。
論文 参考訳(メタデータ) (2024-03-13T18:06:43Z) - Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Green Runner: A tool for efficient model selection from model
repositories [3.0378875015087563]
GreenRunnerGPTは、特定のユースケースに基づいてディープラーニングモデルを選択する新しいツールである。
品質指標の重み付けを提案し、リソース利用を最適化するために、大きな言語モデルを採用している。
我々は、GreenRunnerGPTが、無駄な計算をすることなく、ターゲットユースケースに適したモデルを識別できることを実証した。
論文 参考訳(メタデータ) (2023-05-26T12:00:37Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Model Selection for Cross-Lingual Transfer [15.197350103781739]
本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
論文 参考訳(メタデータ) (2020-10-13T02:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。