Fugu-MT 論文翻訳(概要): The Larger the Better? Improved LLM Code-Generation via Budget Reallocation

論文の概要: The Larger the Better? Improved LLM Code-Generation via Budget Reallocation

arxiv url: http://arxiv.org/abs/2404.00725v2
Date: Thu, 25 Jul 2024 11:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 19:17:05.130520
Title: The Larger the Better? Improved LLM Code-Generation via Budget Reallocation
Title（参考訳）: より大きなもの? 予算再配置によるLLMコード生成の改善
Authors: Michael Hassid, Tal Remez, Jonas Gehring, Roy Schwartz, Yossi Adi,
Abstract要約: 大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。両方のモデルが同じ予算の下で動作した場合、どうなるのか? 我々は、様々なサイズのコード生成LLMを分析し、70Bモデルを実行する場合と13Bモデルから5つの出力を生成する場合の比較を行う。
参考スコア（独自算出の注目度）: 32.0844209512788
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model. We consider a standard unit-test setup, which can be used to select the correct output from the smaller model. Our findings reveal that the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs.
Abstract（参考訳）: 大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。しかし、より大きなモデルでは推論の時間と計算時間もかなり必要である。両方のモデルが同じ予算の下で動作した場合、どうなるのか? (例えば、計算、実行時)。この問題に対処するために、我々は様々なサイズのコード生成LLMを分析し、70Bモデルを実行する場合と13Bモデルから5つの出力を生成する場合の比較を行った。我々は、より小さなモデルから正しい出力を選択するのに使用できる標準の単体テストの設定を考える。これらの結果から,5つのタスクで最大15%のゲインを達成し,より小さなモデルの繰り返し使用が一貫した改善をもたらすことが判明した。一方、単体テストが利用できないシナリオでは、より小さなモデルからの候補のランキングベースの選択は、より大きなモデルからの単一出力のパフォーマンスに劣る。この結果から,より大きなモデルではなく,より小さなモデルを採用する可能性や,LLM出力のランク付け方法の研究の重要性が浮き彫りになった。

関連論文リスト

Learning Generative Selection for Best-of-N [52.88943295436412]
目的の強化学習によって、小さな推論モデルによって強力なGenSelect能力が得られることを示す。この結果は,小規模モデルにおける強力な生成的選択を解放するスケーラブルな手法として強化学習を確立した。
論文参考訳（メタデータ） (2026-02-02T14:21:15Z)
How do Scaling Laws Apply to Knowledge Graph Engineering Tasks? The Impact of Model Size on Large Language Model Performance [4.388282062290401]
知識グラフ工学(KGE)タスクに特有のモデルサイズスケーリング法則について検討する。いくつかのケースでは、プラトー効果や天井効果、すなわち、タスク性能はモデルと次の大きなモデルの間に大きくは変化しなかった。同じ家系のモデルに関して、時にはより大型のモデルが同じ家系のより小型のモデルよりも悪い結果となった。
論文参考訳（メタデータ） (2025-05-22T06:21:40Z)
Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:52:09Z)
Nudging: Inference-time Alignment of LLMs via Guided Decoding [18.530367090350605]
大規模言語モデル(LLM)は、ユーザ命令を効果的かつ安全に追従するためにアライメントを必要とする。このプロセスでは、すべてのベースモデルの整列バージョンをトレーニングする必要があります。 NUDGingは、任意のベースモデルを小さなアライメントモデルを用いて推論時に整列する、トレーニング不要なアルゴリズムである。
論文参考訳（メタデータ） (2024-10-11T23:24:38Z)
Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。提案手法は深層学習モデルの説明可能性を強調する。また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文参考訳（メタデータ） (2024-05-24T18:22:15Z)
Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation [20.445496441396028]
本稿では,各モデルがそれぞれのソリューションに対して一連のテストケースを生成し,実行させ,その結果をカスケードしきい値として用いることを提案する。モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
論文参考訳（メタデータ） (2024-05-24T16:20:04Z)
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文参考訳（メタデータ） (2024-04-29T15:33:23Z)
Skill over Scale: The Case for Medium, Domain-Specific Models for SE [4.2630881518611226]
コードラベリングタスクにおいて、控えめな大きさのドメイン固有モデルは、はるかに大きなモデルよりも優れていることを示す。 SOBertBase (125Mパラメータ)とSOBertLarge (762Mパラメータ)の2つのモデルを、それぞれ374ドルと1600ドルでトレーニングしています。その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文参考訳（メタデータ） (2023-06-05T21:38:30Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文参考訳（メタデータ） (2023-01-30T08:51:19Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。