論文の概要: DocCoder: Generating Code by Retrieving and Reading Docs
- arxiv url: http://arxiv.org/abs/2207.05987v1
- Date: Wed, 13 Jul 2022 06:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:26:15.137536
- Title: DocCoder: Generating Code by Retrieving and Reading Docs
- Title(参考訳): DocCoder: Docsの検索と読み込みによるコード生成
- Authors: Shuyan Zhou and Uri Alon and Frank F. Xu and Zhengbao JIang and Graham
Neubig
- Abstract要約: コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
- 参考スコア(独自算出の注目度): 87.88474546826913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural-language-to-code models learn to generate a code snippet given a
natural language (NL) intent. However, the rapid growth of both publicly
available and proprietary libraries and functions makes it impossible to cover
all APIs using training examples, as new libraries and functions are introduced
daily. Thus, existing models inherently cannot generalize to using unseen
functions and libraries merely through incorporating them into the training
data. In contrast, when human programmers write programs, they frequently refer
to textual resources such as code manuals, documentation, and tutorials, to
explore and understand available library functionality. Inspired by this
observation, we introduce DocCoder: an approach that explicitly leverages code
manuals and documentation by (1) retrieving the relevant documentation given
the NL intent, and (2) generating the code based on the NL intent and the
retrieved documentation. Our approach is general, can be applied to any
programming language, and is agnostic to the underlying neural model. We
demonstrate that DocCoder consistently improves NL-to-code models: DocCoder
achieves 11x higher exact match accuracy than strong baselines on a new Bash
dataset tldr; on the popular Python CoNaLa benchmark, DocCoder improves over
strong baselines by 1.65 BLEU.
- Abstract(参考訳): 自然言語からコードへのモデルは、自然言語(NL)の意図を与えられたコードスニペットを生成することを学ぶ。
しかし、公開されているライブラリとプロプライエタリなライブラリと関数の両方が急速に成長しているため、トレーニング例を使用してすべてのapiをカバーすることは不可能である。
したがって、既存のモデルは、トレーニングデータに組み込むだけでは、目に見えない関数やライブラリを使用するようには一般化できない。
対照的に、人間のプログラマがプログラムを書くとき、しばしばコードマニュアル、ドキュメンテーション、チュートリアルなどのテキストリソースを参照して、利用可能なライブラリ機能を調べ、理解する。
この観察にインスパイアされたDocCoderは、(1)NLインテントが与えられたドキュメントを検索し、(2)NLインテントと検索されたドキュメントに基づいてコードを生成することによって、コードマニュアルとドキュメントを明示的に活用するアプローチです。
我々のアプローチは一般に、どんなプログラミング言語にも適用可能で、基盤となる神経モデルとは無関係です。
DocCoderは、新しいBashデータセットtldrの強いベースラインよりも11倍高い精度で、人気のあるPython CoNaLaベンチマークでは、強力なベースラインよりも1.65BLEUで改善されています。
関連論文リスト
- DocCGen: Document-based Controlled Code Generation [33.19206322891497]
DocCGenは、構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで、豊富な知識を活用できるフレームワークである。
実験の結果,DocCGenは6つの評価指標すべてで,言語モデルのサイズを常に改善していることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:34:57Z) - Towards Summarizing Code Snippets Using Pre-Trained Transformers [20.982048349530483]
この作業では、DLモデルをトレーニングしてコードスニペットを文書化するために必要なすべてのステップを取ります。
我々のモデルは84%の精度でコード要約を識別し、それらを文書化されたコード行にリンクすることができる。
これにより、ドキュメント化されたコードスニペットの大規模なデータセットを構築することが可能になった。
論文 参考訳(メタデータ) (2024-02-01T11:39:19Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - CERT: Continual Pre-Training on Sketches for Library-Oriented Code
Generation [46.45445767488915]
ライブラリ指向コード生成のモデルをトレーニングするために,未実装のコードコーパスを活用する方法を示す。
PandasEvalとNumpyEvalという2つのベンチマークを作成し、ライブラリ指向のコード生成を評価します。
論文 参考訳(メタデータ) (2022-06-14T14:44:34Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - Code Generation for Unknown Libraries via Reading API Documentations [10.122354606820416]
未知のライブラリのコード生成を、追加のトレーニングなしで行うという課題について検討する。
自然言語の意図に基づいて,APIドキュメントから関連コードシグネチャを抽出できるモデルを実装した。
論文 参考訳(メタデータ) (2022-02-16T00:36:33Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。