論文の概要: CodeQueries: A Dataset of Semantic Queries over Code
- arxiv url: http://arxiv.org/abs/2209.08372v2
- Date: Fri, 14 Jul 2023 11:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 17:40:23.047477
- Title: CodeQueries: A Dataset of Semantic Queries over Code
- Title(参考訳): CodeQueries: コード上のセマンティッククエリのデータセット
- Authors: Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya
Kanade, Petros Maniatis, Shirish Shevade
- Abstract要約: 我々はPythonコードにセマンティッククエリーのラベル付きデータセットであるCodeQueriesをコントリビュートする。
既存のデータセットと比較して、CodeQueriesでは、クエリはコードセマンティクスであり、コンテキストはファイルレベルであり、答えはコードスパンである。
CodeQueriesのサブセット上で,ゼロショットと少数ショット設定で大規模言語モデル(GPT3.5-Turbo)を評価する。
- 参考スコア(独自算出の注目度): 7.0864879068510005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers often have questions about semantic aspects of code they are
working on, e.g., "Is there a class whose parent classes declare a conflicting
attribute?". Answering them requires understanding code semantics such as
attributes and inheritance relation of classes. An answer to such a question
should identify code spans constituting the answer (e.g., the declaration of
the subclass) as well as supporting facts (e.g., the definitions of the
conflicting attributes). The existing work on question-answering over code has
considered yes/no questions or method-level context. We contribute a labeled
dataset, called CodeQueries, of semantic queries over Python code. Compared to
the existing datasets, in CodeQueries, the queries are about code semantics,
the context is file level and the answers are code spans. We curate the dataset
based on queries supported by a widely-used static analysis tool, CodeQL, and
include both positive and negative examples, and queries requiring single-hop
and multi-hop reasoning.
To assess the value of our dataset, we evaluate baseline neural approaches.
We study a large language model (GPT3.5-Turbo) in zero-shot and few-shot
settings on a subset of CodeQueries. We also evaluate a BERT style model
(CuBERT) with fine-tuning. We find that these models achieve limited success on
CodeQueries. CodeQueries is thus a challenging dataset to test the ability of
neural models, to understand code semantics, in the extractive
question-answering setting.
- Abstract(参考訳): 例えば、“親クラスが矛盾する属性を宣言するクラスはあるか?
それらに答えるには、属性やクラスの継承関係などのコードの意味を理解する必要がある。
そのような質問に対する答えは、答えを構成するコード(例えば、サブクラスの宣言)と、事実(例えば、矛盾する属性の定義)を識別するべきである。
コードに対する質問回答に関する既存の作業は、イエス/ノー質問やメソッドレベルのコンテキストを考慮に入れています。
我々はPythonコードにセマンティッククエリーのラベル付きデータセットであるCodeQueriesをコントリビュートする。
既存のデータセットと比較して、CodeQueriesでは、クエリはコードセマンティクスであり、コンテキストはファイルレベルであり、答えはコードスパンである。
広く使われている静的分析ツールであるCodeQLがサポートするクエリに基づいてデータセットをキュレートし、ポジティブとネガティブの両方の例と、シングルホップとマルチホップの推論を必要とするクエリを含む。
データセットの価値を評価するために,ベースラインニューラルアプローチを評価する。
CodeQueriesのサブセット上で,ゼロショットおよび少数ショット設定において,大規模言語モデル(GPT3.5-Turbo)について検討する。
また,細調整によるBERTスタイルモデル (CuBERT) の評価を行った。
これらのモデルはCodeQueries上では限定的な成功を収めています。
CodeQueriesは、抽出された質問回答設定において、ニューラルネットワークの能力をテストし、コードセマンティクスを理解するための難しいデータセットである。
関連論文リスト
- Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities [34.27541293716398]
コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。
コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。
コード構文とセマンティクスを習得する際の様々なコードモデルの長所と短所を強調した。
論文 参考訳(メタデータ) (2022-12-20T06:15:17Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Text Classification for Task-based Source Code Related Questions [0.0]
StackOverflowは、開発者がコーディングしたいタスク質問に対する完全な回答を提供する小さなスニペットでソリューションを提供する。
Seq2Seqと、(自然言語の)意図とPythonのコードスニペットを取り入れたバイナリ分類器です。
隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。
論文 参考訳(メタデータ) (2021-10-31T20:10:21Z) - CodeQA: A Question Answering Dataset for Source Code Comprehension [82.63394952538292]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (2021-09-17T06:06:38Z) - Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for
Semantic Code Search [22.9351865820122]
セマンティックコード検索のためのマルチモデルアンサンブル学習アーキテクチャである MuCoS を提案する。
我々は、コード情報の異なる視点を含む異なるデータセットで個々の学習者を訓練する。
次に、学習者をアンサンブルして、コードスニペットの包括的な機能をキャプチャします。
論文 参考訳(メタデータ) (2021-07-10T06:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。