論文の概要: Improving Large Models with Small models: Lower Costs and Better Performance
- arxiv url: http://arxiv.org/abs/2406.15471v1
- Date: Sat, 15 Jun 2024 14:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:01:19.473444
- Title: Improving Large Models with Small models: Lower Costs and Better Performance
- Title(参考訳): 小型モデルによる大規模モデルの改善 - コスト削減とパフォーマンス向上
- Authors: Dong Chen, Shuo Zhang, Yueting Zhuang, Siliang Tang, Qidong Liu, Hua Wang, Mingliang Xu,
- Abstract要約: 我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
- 参考スコア(独自算出の注目度): 81.55672406002715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained large models (PLMs), such as ChatGPT, have demonstrated remarkable performance across diverse tasks. However, the significant computational requirements of PLMs have discouraged most product teams from running or fine-tuning them. In such cases, to harness the exceptional performance of PLMs, one must rely on expensive APIs, thereby exacerbating the economic burden. Despite the overall inferior performance of small models, in specific distributions, they can achieve comparable or even superior results. Consequently, some input can be processed exclusively by small models. On the other hand, certain tasks can be broken down into multiple subtasks, some of which can be completed without powerful capabilities. Under these circumstances, small models can handle the simple subtasks, allowing large models to focus on challenging subtasks, thus improving the performance. We propose Data Shunt$^+$ (DS$^+$), a general paradigm for collaboration of small and large models. DS$^+$ not only substantially reduces the cost associated with querying large models but also effectively improves large models' performance. For instance, ChatGPT achieves an accuracy of $94.43\%$ on Amazon Product sentiment analysis, and DS$^+$ achieves an accuracy of $95.64\%$, while the cost has been reduced to only $31.18\%$. Besides, experiments also prove that the proposed collaborative-based paradigm can better inject specific task knowledge into PLMs compared to fine-tuning.
- Abstract(参考訳): ChatGPTのような事前訓練された大型モデル(PLM)は、様々なタスクで顕著な性能を示した。
しかしながら、PLMの重要な計算要件は、ほとんどの製品チームがそれらの実行や微調整を妨げている。
このような場合、PLMの例外的な性能を利用するには、高価なAPIに頼る必要があり、それによって経済的負担が増大する。
小さなモデルの全体的な性能は劣るが、特定の分布では、同等あるいはそれ以上の結果が得られる。
結果として、いくつかの入力は小さなモデルでのみ処理できる。
一方、特定のタスクは複数のサブタスクに分割することができ、そのいくつかは強力な機能なしで完了することができる。
このような状況下では、小さなモデルは単純なサブタスクを処理でき、大きなモデルは挑戦的なサブタスクに集中できるため、パフォーマンスが向上する。
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$^+$ (DS$^+$)を提案する。
DS$^+$は、大規模モデルのクエリに関連するコストを大幅に削減するだけでなく、大規模モデルのパフォーマンスを効果的に改善する。
例えば、ChatGPTはAmazon Productの感情分析で9,4.43 %の精度を達成し、DS$^+$は9,5.64 %の精度を達成している。
さらに、実験により、提案した協調型パラダイムが、微調整よりも特定のタスク知識をPLMに注入できることが示された。
関連論文リスト
- Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation [20.445496441396028]
本稿では,各モデルがそれぞれのソリューションに対して一連のテストケースを生成し,実行させ,その結果をカスケードしきい値として用いることを提案する。
モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer [1.3108652488669732]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。