論文の概要: Optimizing Large Language Model Hyperparameters for Code Generation
- arxiv url: http://arxiv.org/abs/2408.10577v1
- Date: Tue, 20 Aug 2024 06:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:54:06.910394
- Title: Optimizing Large Language Model Hyperparameters for Code Generation
- Title(参考訳): コード生成のための大規模言語モデルハイパーパラメータの最適化
- Authors: Chetan Arora, Ahnaf Ibn Sayeed, Sherlock Licorish, Fanyu Wang, Christoph Treude,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学において、様々なタスクを自動化するためにますます使われている。
本研究では,様々なハイパーパラメータの影響を徹底的に検討し,LLMのコード生成性能を評価することを目的とする。
- 参考スコア(独自算出の注目度): 12.736206901779502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as GPT models, are increasingly used in software engineering for various tasks, such as code generation, requirements management, and debugging. While automating these tasks has garnered significant attention, a systematic study on the impact of varying hyperparameters on code generation outcomes remains unexplored. This study aims to assess LLMs' code generation performance by exhaustively exploring the impact of various hyperparameters. Hyperparameters for LLMs are adjustable settings that affect the model's behaviour and performance. Specifically, we investigated how changes to the hyperparameters: temperature, top probability (top_p), frequency penalty, and presence penalty affect code generation outcomes. We systematically adjusted all hyperparameters together, exploring every possible combination by making small increments to each hyperparameter at a time. This exhaustive approach was applied to 13 Python code generation tasks, yielding one of four outcomes for each hyperparameter combination: no output from the LLM, non executable code, code that fails unit tests, or correct and functional code. We analysed these outcomes for a total of 14,742 generated Python code segments, focusing on correctness, to determine how the hyperparameters influence the LLM to arrive at each outcome. Using correlation coefficient and regression tree analyses, we ascertained which hyperparameters influence which aspect of the LLM. Our results indicate that optimal performance is achieved with a temperature below 0.5, top probability below 0.75, frequency penalty above -1 and below 1.5, and presence penalty above -1. We make our dataset and results available to facilitate replication.
- Abstract(参考訳): GPTモデルのような大規模言語モデル(LLM)は、コード生成、要求管理、デバッグといった様々なタスクのために、ソフトウェア工学においてますます使われている。
これらのタスクの自動化には大きな注意が向けられているが、コード生成結果に対する様々なハイパーパラメータの影響に関する体系的な研究は、まだ明らかになっていない。
本研究の目的は,様々なハイパーパラメータの影響を徹底的に探索し,LLMのコード生成性能を評価することである。
LLMのハイパーパラメータは、モデルの振る舞いとパフォーマンスに影響を与える調整可能な設定である。
具体的には、温度、トップ確率(top_p)、周波数ペナルティ、プレゼンスペナルティといったハイパーパラメータの変化が、コード生成結果にどのように影響するかを検討した。
我々は、すべてのハイパーパラメータを体系的に調整し、各ハイパーパラメータに小さなインクリメントを一度に行うことで、可能なすべての組み合わせを探索した。
この徹底的なアプローチは、13のPythonコード生成タスクに適用され、各ハイパーパラメータの組み合わせに対して4つの結果の1つが得られた。
これらの結果を分析し、14,742個のPythonコードセグメントを生成し、その正確性に着目して、それぞれの結果に到達するために、ハイパーパラメータがLLMにどのように影響するかを判定した。
相関係数と回帰木解析を用いて, LLMのどの側面にどのようなハイパーパラメータが影響を及ぼすかを確認した。
その結果, 最適性能は0.5以下の温度, 0.75以下の最高確率, -1以上の周波数ペナルティ, 1.5以下の周波数ペナルティ, -1以上の存在ペナルティで達成された。
レプリケーションを容易にするために、データセットと結果を利用可能にしています。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。
我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文 参考訳(メタデータ) (2024-08-02T06:56:59Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Streamlining Ocean Dynamics Modeling with Fourier Neural Operators: A Multiobjective Hyperparameter and Architecture Optimization Approach [5.232806761554172]
我々は,海洋モデルに適したニューラルネットワークの開発を効率化するために,DeepHyperの多目的最適化に先進的な探索アルゴリズムを用いる。
本研究では, 海洋力学予測におけるFNOの利用を向上する手法を示し, 精度を向上したスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-04-07T14:29:23Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters [71.09633069060342]
モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。
我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
論文 参考訳(メタデータ) (2021-02-17T06:16:58Z) - VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization [4.237343083490243]
機械学習(ML)モデルのトレーニングフェーズでは、通常、いくつかのハイパーパラメータを設定する必要がある。
本稿では、ハイパーパラメータのインタラクティブな探索と、この進化過程への介入を支援するビジュアル分析ツールVisEvolを紹介する。
VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。
論文 参考訳(メタデータ) (2020-12-02T13:43:37Z) - Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian
Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。
我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文 参考訳(メタデータ) (2020-06-03T08:53:48Z) - Weighted Random Search for Hyperparameter Optimization [0.0]
本稿では,機械学習アルゴリズムのハイパーパラメータ最適化に使用されるRandom Search(RS)の改良版を紹介する。
我々は、標準RSとは異なり、変化の確率で各ハイパーパラメータに対して新しい値を生成する。
同じ計算予算内で、我々の手法は標準のRSよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-04-03T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。