論文の概要: Learning to Answer Semantic Queries over Code
- arxiv url: http://arxiv.org/abs/2209.08372v1
- Date: Sat, 17 Sep 2022 17:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:46:39.125717
- Title: Learning to Answer Semantic Queries over Code
- Title(参考訳): コード上で意味的クエリに答える学習
- Authors: Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya
Kanade, Petros Maniatis, Shirish Shevade
- Abstract要約: ソフトウェア開発では、開発者はコードのセマンティックな側面に関する質問に対する回答が必要である。
私たちは、現在最先端のトレーニング済みのコードのモデルに基づいて、回答とファクトスパンを予測します。
その結果、ニューラルネットワークはコード内のマイナーな構文エラーに耐性がある一方で、コードのサイズの増大、クエリに関連のないコードの存在、トレーニング例の削減によってモデルのパフォーマンスが制限されることが判明した。
- 参考スコア(独自算出の注目度): 7.0864879068510005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During software development, developers need answers to queries about
semantic aspects of code. Even though extractive question-answering using
neural approaches has been studied widely in natural languages, the problem of
answering semantic queries over code using neural networks has not yet been
explored. This is mainly because there is no existing dataset with extractive
question and answer pairs over code involving complex concepts and long chains
of reasoning. We bridge this gap by building a new, curated dataset called
CodeQueries, and proposing a neural question-answering methodology over code.
We build upon state-of-the-art pre-trained models of code to predict answer
and supporting-fact spans. Given a query and code, only some of the code may be
relevant to answer the query. We first experiment under an ideal setting where
only the relevant code is given to the model and show that our models do well.
We then experiment under three pragmatic considerations: (1) scaling to
large-size code, (2) learning from a limited number of examples and (3)
robustness to minor syntax errors in code. Our results show that while a neural
model can be resilient to minor syntax errors in code, increasing size of code,
presence of code that is not relevant to the query, and reduced number of
training examples limit the model performance. We are releasing our data and
models to facilitate future work on the proposed problem of answering semantic
queries over code.
- Abstract(参考訳): ソフトウェア開発では、開発者はコードのセマンティックな側面に関する質問に対する回答が必要である。
ニューラルネットワークを用いた抽出的問合せは自然言語で広く研究されているが、ニューラルネットワークを用いたコードによるセマンティッククエリーの解答の問題はまだ検討されていない。
これは主に、複雑な概念と長い推論の連鎖を含むコードに対して、抽出された質問と回答のペアを持つ既存のデータセットがないためである。
このギャップを埋めるために、CodeQueriesと呼ばれる新しいキュレートされたデータセットを構築し、コードにニューラルな質問回答手法を提案する。
最先端の事前学習されたコードモデルに基づいて、回答とサポート対象のスパンを予測する。
クエリとコードが与えられた場合、クエリに応答するのはコードの一部だけである。
まず、適切なコードのみをモデルに与えて、モデルがうまく機能することを示す理想的な設定の下で実験します。
次に,(1)大規模コードへのスケーリング,(2)限られたサンプルから学ぶこと,(3)コードの小さな構文エラーに対する堅牢性,の3つの実用的考察の下で実験を行った。
その結果、ニューラルネットワークはコード内のマイナーな構文エラーに耐性がある一方で、コードサイズの増加、クエリに関連のないコードの存在、トレーニング例の削減によってモデルのパフォーマンスが制限されることが判明した。
コード上でセマンティッククエリに応答する提案された問題に対する今後の作業を容易にするために、データとモデルをリリースしています。
関連論文リスト
- Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities [34.27541293716398]
コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。
コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。
コード構文とセマンティクスを習得する際の様々なコードモデルの長所と短所を強調した。
論文 参考訳(メタデータ) (2022-12-20T06:15:17Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Text Classification for Task-based Source Code Related Questions [0.0]
StackOverflowは、開発者がコーディングしたいタスク質問に対する完全な回答を提供する小さなスニペットでソリューションを提供する。
Seq2Seqと、(自然言語の)意図とPythonのコードスニペットを取り入れたバイナリ分類器です。
隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。
論文 参考訳(メタデータ) (2021-10-31T20:10:21Z) - CodeQA: A Question Answering Dataset for Source Code Comprehension [82.63394952538292]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (2021-09-17T06:06:38Z) - Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for
Semantic Code Search [22.9351865820122]
セマンティックコード検索のためのマルチモデルアンサンブル学習アーキテクチャである MuCoS を提案する。
我々は、コード情報の異なる視点を含む異なるデータセットで個々の学習者を訓練する。
次に、学習者をアンサンブルして、コードスニペットの包括的な機能をキャプチャします。
論文 参考訳(メタデータ) (2021-07-10T06:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。