論文の概要: CodeQA: A Question Answering Dataset for Source Code Comprehension
- arxiv url: http://arxiv.org/abs/2109.08365v1
- Date: Fri, 17 Sep 2021 06:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 22:24:21.197211
- Title: CodeQA: A Question Answering Dataset for Source Code Comprehension
- Title(参考訳): CodeQA: ソースコード理解のための質問回答データセット
- Authors: Chenxiao Liu, Xiaojun Wan
- Abstract要約: コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
- 参考スコア(独自算出の注目度): 82.63394952538292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CodeQA, a free-form question answering dataset for the purpose of
source code comprehension: given a code snippet and a question, a textual
answer is required to be generated. CodeQA contains a Java dataset with 119,778
question-answer pairs and a Python dataset with 70,085 question-answer pairs.
To obtain natural and faithful questions and answers, we implement syntactic
rules and semantic analysis to transform code comments into question-answer
pairs. We present the construction process and conduct systematic analysis of
our dataset. Experiment results achieved by several neural baselines on our
dataset are shown and discussed. While research on question-answering and
machine reading comprehension develops rapidly, few prior work has drawn
attention to code question answering. This new dataset can serve as a useful
research benchmark for source code comprehension.
- Abstract(参考訳): ソースコードの理解を目的として,自由形式の質問応答データセットであるcodeqaを提案する。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
自然で忠実な質問や回答を得るために、構文ルールと意味分析を実装し、コードコメントを質問対に変換する。
本稿では,構築過程とデータセットの系統的解析を行う。
データセット上でのいくつかの神経ベースラインによる実験結果を示し,考察した。
質問応答と機械読解に関する研究は急速に進展するが、コード質問応答に注意を向ける先行研究はほとんどない。
この新しいデータセットは、ソースコード理解のための有用な研究ベンチマークとして機能する。
関連論文リスト
- Leveraging Large Language Models in Code Question Answering: Baselines and Issues [0.1617522438111378]
本稿では,Pythonのソースコードに対する質問応答のために,大規模言語モデルを用いた研究について述べる。
提案手法は,Pythonコードの問合せと解答の統一データセット上で,大規模言語モデルを微調整することを含む。
手動エラー解析の結果とともに,BLEU-4,BERTScore F1,BLEURT,Exact Matchの測定値について報告する。
論文 参考訳(メタデータ) (2024-11-05T11:25:12Z) - PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - CS1QA: A Dataset for Assisting Code-based Question Answering in an
Introductory Programming Course [13.61096948994569]
CS1QAは、Pythonを使った入門プログラミングクラスでチャットログから収集された9,237の質問応答ペアで構成されている。
各質問には生徒のコードと、質問に答えるコードの一部が添付されている。
論文 参考訳(メタデータ) (2022-10-26T05:40:34Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - ComQA:Compositional Question Answering via Hierarchical Graph Neural
Networks [47.12013005600986]
我々は,120万以上の人間ラベル質問を含む大規模構成質問応答データセットを提案する。
ComQA問題に対処するために,低レベル語から高レベル語までの文書を表す階層型グラフニューラルネットワークを提案する。
提案モデルは,先行する機械読解法や事前学習法に比べて大幅に改善する。
論文 参考訳(メタデータ) (2021-01-16T08:23:27Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。