論文の概要: HumanEval on Latest GPT Models -- 2024
- arxiv url: http://arxiv.org/abs/2402.14852v1
- Date: Tue, 20 Feb 2024 04:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:27:57.179755
- Title: HumanEval on Latest GPT Models -- 2024
- Title(参考訳): 最新のGPTモデルに関するHumanEval - 2024
- Authors: Daniel Li, Lincoln Murr
- Abstract要約: このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。
これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
- 参考スコア(独自算出の注目度): 2.3279007422505322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 2023, we are using the latest models of GPT-4 to advance program
synthesis. The large language models have significantly improved the
state-of-the-art for this purpose. To make these advancements more accessible,
we have created a repository that connects these models to Huamn Eval. This
dataset was initally developed to be used with a language model called CODEGEN
on natural and programming language data. The utility of these trained models
is showcased by demonstrating their competitive performance in zero-shot Python
code generation on HumanEval tasks compared to previous state-of-the-art
solutions. Additionally, this gives way to developing more multi-step paradigm
synthesis. This benchmark features 160 diverse problem sets factorized into
multistep prompts that our analysis shows significantly improves program
synthesis over single-turn inputs. All code is open source at
https://github.com/daniel442li/gpt-human-eval .
- Abstract(参考訳): 2023年、我々はgpt-4の最新モデルを用いてプログラム合成を進めた。
大きな言語モデルは、この目的のために最先端を著しく改善した。
これらの進歩をより容易にするために、これらのモデルをHummn Evalに接続するリポジトリを作成しました。
このデータセットは自然言語とプログラミング言語のデータにcodegenと呼ばれる言語モデルで使われるように意図的に開発された。
これらのトレーニングされたモデルの実用性は、以前の最先端ソリューションと比較して、HumanEvalタスクでゼロショットのPythonコード生成で競合するパフォーマンスを示すことで示される。
さらに、これはより多段階のパラダイム合成を開発する方法を与える。
このベンチマークでは,160の多様な問題集合を多段階に分解し,解析結果から,単ターン入力よりもプログラム合成が大幅に向上することが示された。
すべてのコードは、https://github.com/daniel442li/gpt-human-evalでオープンソースである。
関連論文リスト
- Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Catwalk: A Unified Language Model Evaluation Framework for Many Datasets [50.75378592254184]
Catwalkは、既存のNLPデータセットとモデルに統一されたインターフェースを提供する。
キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。
論文 参考訳(メタデータ) (2023-12-15T23:11:45Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。