Fugu-MT 論文翻訳(概要): Code Generation Tools (Almost) for Free? A Study of Few-Shot, Pre-Trained Language Models on Code

論文の概要: Code Generation Tools (Almost) for Free? A Study of Few-Shot, Pre-Trained Language Models on Code

arxiv url: http://arxiv.org/abs/2206.01335v1
Date: Thu, 2 Jun 2022 23:15:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-07 04:43:54.082301
Title: Code Generation Tools (Almost) for Free? A Study of Few-Shot, Pre-Trained Language Models on Code
Title（参考訳）: コード生成ツールは(ほとんど)無償ですか? コードによるマイナショット・事前学習言語モデルの検討
Authors: Patrick Barei{\ss}, Beatriz Souza, Marcelo d'Amorim, Michael Pradel
Abstract要約: 大規模で事前訓練された言語モデルによるショットラーニングは、コードに関する質問に答える強力な方法だ。本稿では,現在最先端の事前訓練済みの言語モデルであるCodexがこの目的をどの程度果たすかを検討する。
参考スコア（独自算出の注目度）: 13.15617135394116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot learning with large-scale, pre-trained language models is a powerful way to answer questions about code, e.g., how to complete a given code example, or even generate code snippets from scratch. The success of these models raises the question whether they could serve as a basis for building a wide range code generation tools. Traditionally, such tools are built manually and separately for each task. Instead, few-shot learning may allow to obtain different tools from a single pre-trained language model by simply providing a few examples or a natural language description of the expected tool behavior. This paper studies to what extent a state-of-the-art, pre-trained language model of code, Codex, may serve this purpose. We consider three code manipulation and code generation tasks targeted by a range of traditional tools: (i) code mutation; (ii) test oracle generation from natural language documentation; and (iii) test case generation. For each task, we compare few-shot learning to a manually built tool. Our results show that the model-based tools complement (code mutation), are on par (test oracle generation), or even outperform their respective traditionally built tool (test case generation), while imposing far less effort to develop them. By comparing the effectiveness of different variants of the model-based tools, we provide insights on how to design an appropriate input ("prompt") to the model and what influence the size of the model has. For example, we find that providing a small natural language description of the code generation task is an easy way to improve predictions. Overall, we conclude that few-shot language models are surprisingly effective, yet there is still more work to be done, such as exploring more diverse ways of prompting and tackling even more involved tasks.
Abstract（参考訳）: 大規模な事前学習された言語モデルによる少数ショット学習は、コードに関する質問に答える強力な方法であり、例えば、与えられたコード例を完成する方法、スクラッチからコードスニペットを生成する方法などです。これらのモデルの成功は、広範囲のコード生成ツール構築の基盤として機能できるかという疑問を提起する。伝統的に、これらのツールは各タスクごとに手動で個別に構築される。代わりに、少数のショット学習は、期待されるツールの振る舞いのサンプルや自然言語記述を単に提供することによって、単一の事前学習された言語モデルから異なるツールを得ることができる。本稿では,現在最先端の事前訓練済みの言語モデルであるCodexがこの目的をどの程度果たすかを検討する。従来のツールがターゲットとする3つのコード操作とコード生成タスクについて検討する。 (i)コード変異 (ii)自然言語文書からoracle生成をテストすること、及び (iii)テストケース生成。各タスクについて、手作業で構築したツールと比較します。その結果、モデルベースのツールが補完する(コード変異)か、同等である(テストオラクル生成)か、あるいは従来のツールよりも優れている(テストケース生成)ことを示し、それを開発する努力をはるかに少なくしている。モデルベースツールの異なる変種の有効性を比較することで、モデルに対して適切な入力("prompt")を設計する方法と、モデルのサイズにどのような影響があるのかを洞察する。例えば、コード生成タスクの小さな自然言語記述を提供することは、予測を改善するための簡単な方法である。全体として、少数ショット言語モデルは驚くほど効果的だと結論付けていますが、より多様なタスクの促進や対処方法を探求するなど、さらに多くの作業がなされています。

関連論文リスト

A Multi-Language Perspective on the Robustness of LLM Code Generation [2.580765958706854]
我々は、いくつかの顕著なコード生成モデルの堅牢性を評価するために、包括的な比較分析を行う。プロンプトの4つの重要な領域、DocString、関数名、構文、フォーマットに摂動を導入する。本研究は,様々なシナリオにおけるコード生成モデルの性能に光を当て,実験結果を示す。
論文参考訳（メタデータ） (2025-04-27T05:00:21Z)
Curriculum Learning for Small Code Language Models [0.09999629695552192]
本稿では,プログラム言語モデルの性能向上におけるカリキュラム学習の可能性について考察する。十分に設計されたカリキュラム学習手法は,デコーダのみの小さな言語モデルの精度を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-07-14T13:32:24Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (2023-02-09T16:49:57Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (2021-10-15T17:08:57Z)
Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2021-09-15T17:42:44Z)
The Turking Test: Can Language Models Understand Instructions? [45.266428794559495]
本稿では,様々な複雑さの自然言語命令に従うモデルの能力を検証したチューリングテストを提案する。優れた評価手法にもかかわらず、大きな事前訓練された言語モデルが全てのタスクで不十分に機能することを観察する。
論文参考訳（メタデータ） (2020-10-22T18:44:16Z)
Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文参考訳（メタデータ） (2020-04-08T06:18:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。