論文の概要: HumanEval on Latest GPT Models -- 2024
- arxiv url: http://arxiv.org/abs/2402.14852v1
- Date: Tue, 20 Feb 2024 04:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:27:57.179755
- Title: HumanEval on Latest GPT Models -- 2024
- Title(参考訳): 最新のGPTモデルに関するHumanEval - 2024
- Authors: Daniel Li, Lincoln Murr
- Abstract要約: このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。
これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
- 参考スコア(独自算出の注目度): 2.3279007422505322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 2023, we are using the latest models of GPT-4 to advance program
synthesis. The large language models have significantly improved the
state-of-the-art for this purpose. To make these advancements more accessible,
we have created a repository that connects these models to Huamn Eval. This
dataset was initally developed to be used with a language model called CODEGEN
on natural and programming language data. The utility of these trained models
is showcased by demonstrating their competitive performance in zero-shot Python
code generation on HumanEval tasks compared to previous state-of-the-art
solutions. Additionally, this gives way to developing more multi-step paradigm
synthesis. This benchmark features 160 diverse problem sets factorized into
multistep prompts that our analysis shows significantly improves program
synthesis over single-turn inputs. All code is open source at
https://github.com/daniel442li/gpt-human-eval .
- Abstract(参考訳): 2023年、我々はgpt-4の最新モデルを用いてプログラム合成を進めた。
大きな言語モデルは、この目的のために最先端を著しく改善した。
これらの進歩をより容易にするために、これらのモデルをHummn Evalに接続するリポジトリを作成しました。
このデータセットは自然言語とプログラミング言語のデータにcodegenと呼ばれる言語モデルで使われるように意図的に開発された。
これらのトレーニングされたモデルの実用性は、以前の最先端ソリューションと比較して、HumanEvalタスクでゼロショットのPythonコード生成で競合するパフォーマンスを示すことで示される。
さらに、これはより多段階のパラダイム合成を開発する方法を与える。
このベンチマークでは,160の多様な問題集合を多段階に分解し,解析結果から,単ターン入力よりもプログラム合成が大幅に向上することが示された。
すべてのコードは、https://github.com/daniel442li/gpt-human-evalでオープンソースである。
関連論文リスト
- Catwalk: A Unified Language Model Evaluation Framework for Many Datasets [50.75378592254184]
Catwalkは、既存のNLPデータセットとモデルに統一されたインターフェースを提供する。
キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。
論文 参考訳(メタデータ) (2023-12-15T23:11:45Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on
Language Models for Code [26.010021614297294]
本稿では,言語モデルを用いたコード処理の最近の進歩を体系的にレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
AST、CFG、ユニットテストなどのコード固有の機能や、トレーニングコード言語モデルのアプリケーションについて議論し、この領域における重要な課題と将来的な方向性を特定します。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding [46.74457030177477]
自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
論文 参考訳(メタデータ) (2020-06-30T10:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。