論文の概要: Fly-Swat or Cannon? Cost-Effective Language Model Choice via
Meta-Modeling
- arxiv url: http://arxiv.org/abs/2308.06077v2
- Date: Tue, 12 Dec 2023 16:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:54:06.953809
- Title: Fly-Swat or Cannon? Cost-Effective Language Model Choice via
Meta-Modeling
- Title(参考訳): フライスワットかキャノンか?
メタモデリングによるコスト効果言語モデル選択
- Authors: Marija \v{S}akota, Maxime Peyrard, Robert West
- Abstract要約: CELMOC (Cost-Effective Language Model Choice) のためのフレームワークを設計する。
CELMOCは、各入力を、いわゆるメタモデルに従って、入力でうまく動作すると予測されたLMに、司法的に割り当てる。
CELMOCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。
- 参考スコア(独自算出の注目度): 28.02117209162241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative language models (LMs) have become omnipresent across data science.
For a wide variety of tasks, inputs can be phrased as natural language prompts
for an LM, from whose output the solution can then be extracted. LM performance
has consistently been increasing with model size - but so has the monetary cost
of querying the ever larger models. Importantly, however, not all inputs are
equally hard: some require larger LMs for obtaining a satisfactory solution,
whereas for others smaller LMs suffice. Based on this fact, we design a
framework for Cost-Effective Language Model Choice (CELMOC). Given a set of
inputs and a set of candidate LMs, CELMOC judiciously assigns each input to an
LM predicted to do well on the input according to a so-called meta-model,
aiming to achieve high overall performance at low cost. The cost-performance
trade-off can be flexibly tuned by the user. Options include, among others,
maximizing total expected performance (or the number of processed inputs) while
staying within a given cost budget, or minimizing total cost while processing
all inputs. We evaluate CELMOC on 14 datasets covering five natural language
tasks, using four candidate LMs of vastly different size and cost. With CELMOC,
we match the performance of the largest available LM while achieving a cost
reduction of 63%. Via our publicly available library, researchers as well as
practitioners can thus save large amounts of money without sacrificing
performance.
- Abstract(参考訳): ジェネレーティブ言語モデル(LM)は、データサイエンス全体にわたって一様である。
様々なタスクに対して、入力はLMの自然言語プロンプトとして表現することができ、その出力から解を抽出することができる。
lmのパフォーマンスはモデルサイズによって一貫して向上していますが、さらに大きなモデルに問い合わせる金銭的なコストも伴っています。
しかし、重要なことは全ての入力が等しく難しいわけではない: 満足な解を得るためにより大きなLMを必要とするものもいるが、他のより小さなLMでは十分である。
この事実に基づいて、コスト効果言語モデル選択(CELMOC)のためのフレームワークを設計する。
入力のセットと候補LMのセットが与えられた後、CELMOCは、各入力を、メタモデルと呼ばれる入力でうまく動作すると予測されたLMに任意に割り当て、低コストで全体的なパフォーマンスを達成することを目的としている。
コストパフォーマンストレードオフは、ユーザが柔軟に調整することができる。
オプションには、所定のコスト予算内に留まり、期待されるパフォーマンス(または処理された入力数)を最大化することや、すべての入力を処理しながら総コストを最小化することが含まれる。
5つの自然言語タスクをカバーする14のデータセット上でcelmocを評価し,サイズとコストの異なる4つの候補lmsを用いて評価した。
CELMOCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。
公開ライブラリーのおかげで、研究者も実践者も、パフォーマンスを犠牲にすることなく大量のお金を節約できる。
関連論文リスト
- $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - All Language Models Large and Small [4.676589803026312]
多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。
これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。
本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-02-19T11:28:20Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - MUX-PLMs: Data Multiplexing for High-throughput Language Models [23.96140002012293]
マルチインプット・マルチアウトプット(MIMO)アルゴリズムはスループットを多倍に向上させる有望なソリューションを提供する。
データ多重化を訓練した高スループット事前学習言語モデルであるMUX-PLMsを開発した。
我々の新しい多重化・非多重化モジュールは、巧妙に絡み合ったり、歪んだりすることで、高性能なスループットのMuxplmを実現する。
論文 参考訳(メタデータ) (2023-02-24T04:03:15Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。