論文の概要: Large Language Models Meet NL2Code: A Survey
- arxiv url: http://arxiv.org/abs/2212.09420v2
- Date: Mon, 8 May 2023 10:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:39:02.630455
- Title: Large Language Models Meet NL2Code: A Survey
- Title(参考訳): 大規模言語モデルとNL2Code:調査
- Authors: Daoguang Zan, Bei Chen, Fengji Zhang, Dianjie Lu, Bingchao Wu, Bei
Guan, Yongji Wang, Jian-Guang Lou
- Abstract要約: NL2Code用の27の既存大規模言語モデルに関する包括的調査を行う。
NL2Codeの大規模言語モデルの成功に寄与する主な要因は、"大規模サイズ、プレミアムデータ、エキスパートチューニング"である。
- 参考スコア(独自算出の注目度): 19.606985859571083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of generating code from a natural language description, or NL2Code,
is considered a pressing and significant challenge in code intelligence. Thanks
to the rapid development of pre-training techniques, surging large language
models are being proposed for code, sparking the advances in NL2Code. To
facilitate further research and applications in this field, in this paper, we
present a comprehensive survey of 27 existing large language models for
NL2Code, and also review benchmarks and metrics. We provide an intuitive
comparison of all existing models on the HumanEval benchmark. Through in-depth
observation and analysis, we provide some insights and conclude that the key
factors contributing to the success of large language models for NL2Code are
"Large Size, Premium Data, Expert Tuning". In addition, we discuss challenges
and opportunities regarding the gap between models and humans. We also create a
website https://nl2code.github.io to track the latest progress through
crowd-sourcing. To the best of our knowledge, this is the first survey of large
language models for NL2Code, and we believe it will contribute to the ongoing
development of the field.
- Abstract(参考訳): 自然言語記述(NL2Code)からコードを生成するタスクは、コードインテリジェンスにおいて、強く重要な課題であると考えられている。
事前トレーニング技術の急速な開発により、コードに対する大規模な言語モデルの増加が提案され、NL2Codeの進歩が引き起こされている。
本稿では,この分野におけるさらなる研究と応用を容易にするために,既存の27の大規模言語モデル(nl2code)の包括的調査を行い,ベンチマークとメトリクスのレビューを行う。
humanevalベンチマークで既存のモデルをすべて直感的に比較します。
詳細な観察と分析を通じて、NL2Codeの大規模言語モデルの成功に寄与する主要な要因は、"大きなサイズ、プレミアムデータ、エキスパートチューニング"であると結論付けている。
さらに,モデルと人間とのギャップに関する課題と機会について論じる。
また、クラウドソーシングによる最新の進捗を追跡するウェブサイト https://nl2code.github.io も作成しています。
我々の知る限りでは、これはNL2Codeの大規模言語モデルに関する最初の調査であり、この分野の継続的な発展に寄与すると信じている。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。