Fugu-MT 論文翻訳(概要): Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling

論文の概要: Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling

arxiv url: http://arxiv.org/abs/2308.06077v3
Date: Mon, 18 Dec 2023 08:26:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 23:35:46.990855
Title: Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling
Title（参考訳）: フライスワットかキャノンか? メタモデリングによるコスト効果言語モデル選択
Authors: Marija \v{S}akota, Maxime Peyrard, Robert West
Abstract要約: FORC(Fly-swat or cannon)は、コスト効率の良い言語モデル選択のためのフレームワークである。 5つの自然言語タスクをカバーする14のデータセット上でFORCを評価する。 FORCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。
参考スコア（独自算出の注目度）: 28.02117209162241
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative language models (LMs) have become omnipresent across data science. For a wide variety of tasks, inputs can be phrased as natural language prompts for an LM, from whose output the solution can then be extracted. LM performance has consistently been increasing with model size - but so has the monetary cost of querying the ever larger models. Importantly, however, not all inputs are equally hard: some require larger LMs for obtaining a satisfactory solution, whereas for others smaller LMs suffice. Based on this fact, we design a framework for cost-effective language model choice, called "Fly-swat or cannon" (FORC). Given a set of inputs and a set of candidate LMs, FORC judiciously assigns each input to an LM predicted to do well on the input according to a so-called meta-model, aiming to achieve high overall performance at low cost. The cost-performance tradeoff can be flexibly tuned by the user. Options include, among others, maximizing total expected performance (or the number of processed inputs) while staying within a given cost budget, or minimizing total cost while processing all inputs. We evaluate FORC on 14 datasets covering five natural language tasks, using four candidate LMs of vastly different size and cost. With FORC, we match the performance of the largest available LM while achieving a cost reduction of 63%. Via our publicly available library, researchers as well as practitioners can thus save large amounts of money without sacrificing performance.
Abstract（参考訳）: ジェネレーティブ言語モデル(LM)は、データサイエンス全体にわたって一様である。様々なタスクに対して、入力はLMの自然言語プロンプトとして表現することができ、その出力から解を抽出することができる。 lmのパフォーマンスはモデルサイズによって一貫して向上していますが、さらに大きなモデルに問い合わせる金銭的なコストも伴っています。しかし、重要なことは全ての入力が等しく難しいわけではない: 満足な解を得るためにより大きなLMを必要とするものもいるが、他のより小さなLMでは十分である。この事実に基づいて,コスト効率の高い言語モデル選択のためのフレームワークを"fly-swat or cannon" (forc) として設計する。入力のセットと候補lmのセットが与えられたとき、forcは、いわゆるメタモデルに従って入力でうまく行くと予測されるlmに各入力を公平に割り当て、低コストで高い全体的なパフォーマンスを達成することを目指す。コストパフォーマンストレードオフは、ユーザが柔軟に調整することができる。オプションには、所定のコスト予算内に留まり、期待されるパフォーマンス(または処理された入力数)を最大化することや、すべての入力を処理しながら総コストを最小化することが含まれる。我々は,5つの自然言語タスクをカバーする14のデータセットについて,サイズとコストの異なる4つの候補lmsを用いてforcを評価する。 FORCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。公開ライブラリーのおかげで、研究者も実践者も、パフォーマンスを犠牲にすることなく大量のお金を節約できる。

関連論文リスト

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文参考訳（メタデータ） (2024-08-21T17:59:05Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
All Language Models Large and Small [4.676589803026312]
多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
論文参考訳（メタデータ） (2024-02-19T11:28:20Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。 4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文参考訳（メタデータ） (2023-05-22T22:07:50Z)
MUX-PLMs: Data Multiplexing for High-throughput Language Models [23.96140002012293]
マルチインプット・マルチアウトプット(MIMO)アルゴリズムはスループットを多倍に向上させる有望なソリューションを提供する。データ多重化を訓練した高スループット事前学習言語モデルであるMUX-PLMsを開発した。我々の新しい多重化・非多重化モジュールは、巧妙に絡み合ったり、歪んだりすることで、高性能なスループットのMuxplmを実現する。
論文参考訳（メタデータ） (2023-02-24T04:03:15Z)
Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文参考訳（メタデータ） (2022-10-26T02:42:53Z)
Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-10-20T16:46:41Z)
Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文参考訳（メタデータ） (2022-10-01T04:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。