論文の概要: Evaluating How Fine-tuning on Bimodal Data Effects Code Generation
- arxiv url: http://arxiv.org/abs/2211.07842v1
- Date: Tue, 15 Nov 2022 01:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 12:55:30.224875
- Title: Evaluating How Fine-tuning on Bimodal Data Effects Code Generation
- Title(参考訳): バイモーダルデータ生成における微調整の効果評価
- Authors: Gabriel Orlanski, Seonhye Yang, Michael Healy
- Abstract要約: バイモーダルコーディングフォーラムのトレーニングは、モデルのコード生成性能と信頼性に影響を与える。
我々は220万以上のStackOverflow質問のデータセットを集め、微調整の回答を得た。
高温では、実行可能プログラムを生成するモデルの性能が大幅に低下することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the increase in popularity of language models for code generation, it
is still unknown how training on bimodal coding forums affects a model's code
generation performance and reliability. We, therefore, collect a dataset of
over 2.2M StackOverflow questions with answers for finetuning. These fine-tuned
models have average $pass@k$ improvements of 54.64% and 85.35% on the HumanEval
(Chen et al., 2021) and Mostly Basic Program Problems (Austin et al., 2021)
tasks, respectively. This regime further decreases the number of generated
programs with both syntax and runtime errors. However, we find that at higher
temperatures, there are significant decreases to the model's ability to
generate runnable programs despite higher $pass@k$ scores, underscoring the
need for better methods of incorporating such data that mitigate these side
effects. The code can be found
https://github.com/gabeorlanski/bimodalcode-generation
- Abstract(参考訳): コード生成のための言語モデルの人気が高まっているにもかかわらず、バイモーダルコーディングフォーラムでのトレーニングがモデルの性能と信頼性にどのように影響するかはまだ分かっていない。
したがって、我々は220万以上のStackOverflow質問のデータセットを収集し、微調整の回答を得る。
これらの微調整されたモデルは、平均で54.64%と85.35%改善され(chen et al., 2021)、基本プログラム問題(austin et al., 2021)となっている。
このレシエーションは、構文と実行時エラーの両方で生成されたプログラムの数をさらに減らす。
しかし、より高い温度では、より高い$pass@k$スコアにもかかわらず、モデルが実行可能なプログラムを生成する能力に顕著な低下が生じており、これらの副作用を緩和するデータを統合する方法の必要性が強調されている。
コードはhttps://github.com/gabeorlanski/bimodalcode-generationにある。
関連論文リスト
- Hotfixing Large Language Models for Code [8.243596444097506]
コードのための大規模言語モデル(LLM4Code)は、コード補完や生成といったタスクを補助し、開発者の不可欠な部分となっている。
これらのモデルは、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。
本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。
論文 参考訳(メタデータ) (2024-08-11T08:34:43Z) - CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。
350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。
その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:45:02Z) - HumanEval on Latest GPT Models -- 2024 [2.3279007422505322]
このデータセットは、自然言語とプログラミング言語のデータに対してCODEGENと呼ばれる言語モデルで使用されるように初期開発された。
これらのトレーニングされたモデルの実用性は、HumanEvalタスク上のゼロショットPythonコード生成において、競争力のあるパフォーマンスを示すことで示される。
論文 参考訳(メタデータ) (2024-02-20T04:17:21Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。
ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。
表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文 参考訳(メタデータ) (2022-11-17T07:04:11Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。