論文の概要: Text Classification for Task-based Source Code Related Questions
- arxiv url: http://arxiv.org/abs/2111.00580v1
- Date: Sun, 31 Oct 2021 20:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 07:09:51.338699
- Title: Text Classification for Task-based Source Code Related Questions
- Title(参考訳): タスクベースソースコード関連質問に対するテキスト分類
- Authors: Sairamvinay Vijayaraghavan, Jinxiao Song, David Tomassi, Siddhartha
Punj, Jailan Sabet
- Abstract要約: StackOverflowは、開発者がコーディングしたいタスク質問に対する完全な回答を提供する小さなスニペットでソリューションを提供する。
Seq2Seqと、(自然言語の)意図とPythonのコードスニペットを取り入れたバイナリ分類器です。
隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a key demand to automatically generate code for small tasks for
developers. Websites such as StackOverflow provide a simplistic way by offering
solutions in small snippets which provide a complete answer to whatever task
question the developer wants to code. Natural Language Processing and
particularly Question-Answering Systems are very helpful in resolving and
working on these tasks. In this paper, we develop a two-fold deep learning
model: Seq2Seq and a binary classifier that takes in the intent (which is in
natural language) and code snippets in Python. We train both the intent and the
code utterances in the Seq2Seq model, where we decided to compare the effect of
the hidden layer embedding from the encoder for representing the intent and
similarly, using the decoder's hidden layer embeddings for the code sequence.
Then we combine both these embeddings and then train a simple binary neural
network classifier model for predicting if the intent is correctly answered by
the predicted code sequence from the seq2seq model. We find that the hidden
state layer's embeddings perform slightly better than regular standard
embeddings from a constructed vocabulary. We experimented with our tests on the
CoNaLa dataset in addition to the StaQC database consisting of simple task-code
snippet-based pairs. We empirically establish that using additional pre-trained
embeddings for code snippets in Python is less context-based in comparison to
using hidden state context vectors from seq2seq models.
- Abstract(参考訳): 開発者のために小さなタスクのコードを自動的に生成するという大きな要求がある。
StackOverflowのようなWebサイトは、開発者がコーディングしたいタスクに対する完全な回答を提供する小さなスニペットでソリューションを提供することによって、単純化された方法を提供する。
自然言語処理と特に質問応答システムは、これらのタスクの解決と作業に非常に役立ちます。
本稿では,2次元のディープラーニングモデルであるseq2seqと,pythonのインテント(自然言語)とコードスニペットを取り込むバイナリ分類器を開発した。
Seq2Seqモデルでは、インテントとコード発話の両方をトレーニングし、インテントを表すエンコーダから隠れたレイヤを埋め込んだ結果と、コードシーケンスのデコーダの隠れたレイヤ埋め込みを用いて比較することにしました。
そして、これらの埋め込みを組み合わせることで、単純なバイナリニューラルネットワーク分類モデルをトレーニングし、seq2seqモデルから予測されたコードシーケンスによって意図が正しく応答されているかどうかを予測します。
隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。
簡単なタスクコードスニペットベースのペアからなるStaQCデータベースに加えて,CoNaLaデータセット上でテストを行った。
経験的に、Pythonのコードスニペットに事前トレーニング済みの埋め込みを使用することは、seq2seqモデルからの隠れ状態コンテキストベクターよりもコンテキストベースが少ないことが確認できます。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - What do pre-trained code models know about code? [9.60966128833701]
事前に訓練されたコードモデルを調べるために、プローブと呼ばれる診断タスクを使用します。
BERT(英語で事前学習)、CodeBERT(ソースコードで事前学習)、CodeBERTa(自然言語で事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)について検討した。
論文 参考訳(メタデータ) (2021-08-25T16:20:17Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。