論文の概要: AutoMix: Automatically Mixing Language Models
- arxiv url: http://arxiv.org/abs/2310.12963v2
- Date: Wed, 15 Nov 2023 18:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:19:27.218357
- Title: AutoMix: Automatically Mixing Language Models
- Title(参考訳): automix: 言語モデルの自動混合
- Authors: Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi
Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik
Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui
- Abstract要約: 大規模言語モデル(LLM)が、クラウドAPIプロバイダからさまざまなサイズと構成で利用可能になった。
本稿では,より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutoMixを提案する。
- 参考スコア(独自算出の注目度): 63.911984598567834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now available in various sizes and
configurations from cloud API providers. While this diversity offers a broad
spectrum of choices, effectively leveraging the options to optimize
computational cost and performance remains challenging. In this work, we
present AutoMix, an approach that strategically routes queries to larger LMs,
based on the approximate correctness of outputs from a smaller LM. Central to
AutoMix is a few-shot self-verification mechanism, which estimates the
reliability of its own outputs without requiring training. Given that
verifications can be noisy, we employ a meta verifier in AutoMix to refine the
accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five
context-grounded reasoning datasets demonstrate that AutoMix surpasses
established baselines, improving the incremental benefit per cost by up to 89%.
Our code and data are available at https://github.com/automix-llm/automix.
- Abstract(参考訳): 大規模言語モデル(LLM)が、クラウドAPIプロバイダからさまざまなサイズと構成で利用可能になった。
この多様性は幅広い選択肢を提供するが、計算コストと性能を最適化するオプションを効果的に活用することは依然として困難である。
本稿では,より小さいlmからの出力の近似正しさに基づいて,クエリをより大きなlmに戦略的にルーティングする手法であるautomixを提案する。
Central to AutoMixは数発の自己検証メカニズムで、トレーニングを必要とせずに出力の信頼性を見積もる。
検証がノイズになりうることを考慮し、これらの評価の精度を向上するためにAutoMixのメタ検証を用いる。
llama2-13/70bを用いた5つのコンテキストに基づく推論データセットによる実験では,automixが確立されたベースラインを上回っており,コストごとのインクリメンタルなメリットを最大89%向上している。
私たちのコードとデータはhttps://github.com/automix-llm/automixで入手できます。
関連論文リスト
- Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Adversarial AutoMixup [50.1874436169571]
本稿では,AdAutomixupを提案する。
画像分類のための堅牢な分類器を訓練するために、挑戦的なサンプルを生成する。
本手法は, 様々な分類シナリオにおいて, 技術状況に優れる。
論文 参考訳(メタデータ) (2023-12-19T08:55:00Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - AutoMix: Unveiling the Power of Mixup [34.623943038648164]
サンプル混合ポリシーを適応的に学習するために、識別機能を利用する柔軟性のある一般的な自動混合フレームワークを紹介します。
mixup をプリテキストタスクとして捉え,ミックスサンプル生成とミックスアップ分類という2つのサブプロブレムに分割した。
6つの人気のある分類ベンチマークの実験は、AutoMixが他の主要なミックスアップメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2021-03-24T07:21:53Z) - Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。
これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。
AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文 参考訳(メタデータ) (2021-02-22T18:54:26Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。