論文の概要: GENCNIPPET: Automated Generation of Code Snippets for Supporting Programming Questions
- arxiv url: http://arxiv.org/abs/2504.16292v1
- Date: Tue, 22 Apr 2025 22:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.946781
- Title: GENCNIPPET: Automated Generation of Code Snippets for Supporting Programming Questions
- Title(参考訳): genCNIPPET: プログラミング質問を支援するコードスニペットの自動生成
- Authors: Saikat Mondal, Chanchal K. Roy,
- Abstract要約: ソフトウェア開発者は、Stack Overflow (SO)のようなテクニカルQ&Aフォーラムに対して、プログラミング関連の問題に対する解決策を求めることが多い。
多くの疑問は、簡単に利用できるコードがないこと、時間制限、雇用者制限、機密性に関する懸念、共有すべきコードに関する不確実性のために、必要なコードスニペットを見逃している。
GENCNIPPETは、適切なコード例(必要であれば)を生成して、タイムリーなソリューションに対する質問をサポートする。
- 参考スコア(独自算出の注目度): 5.176434782905268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Context: Software developers often ask questions on Technical Q&A forums like Stack Overflow (SO) to seek solutions to their programming-related problems (e.g., errors and unexpected behavior of code). Problem: Many questions miss required code snippets due to the lack of readily available code, time constraints, employer restrictions, confidentiality concerns, or uncertainty about what code to share. Unfortunately, missing but required code snippets prevent questions from getting prompt and appropriate solutions. Objective: We plan to introduce GENCNIPPET, a tool designed to integrate with SO's question submission system. GENCNIPPET will generate relevant code examples (when required) to support questions for their timely solutions. Methodology: We first downloaded the SO April 2024 data dump, which contains 1.94 million questions related to Python that have code snippets and 1.43 million questions related to Java. Then, we filter these questions to identify those that genuinely require code snippets using a state-of-the-art machine learning model. Next, we select questions with positive scores to ensure high-quality data. Our plan is to fine-tune Llama-3 models (e.g., Llama-3-8B), using 80% of the selected questions for training and 10% for validation. The primary reasons for choosing Llama models are their open-source accessibility and robust fine-tuning capabilities, which are essential for deploying a freely accessible tool. GENCNIPPET will be integrated with the SO question submission system as a browser plugin. It will communicate with the fine-tuned model to generate code snippets tailored to the target questions. The effectiveness of the generated code examples will be assessed using automatic evaluation against ground truth, user perspectives, and live (wild) testing in real-world scenarios.
- Abstract(参考訳): コンテキスト: ソフトウェア開発者は、Stack Overflow (SO)のような技術Q&Aフォーラムで、プログラミング関連の問題(コードのエラーや予期せぬ振る舞いなど)に対する解決策を探すために、しばしば質問をする。
問題: 多くの質問は、簡単に利用できるコード、時間制限、雇用者の制限、機密性に関する懸念、共有するコードに関する不確実性のために、必要なコードスニペットを見逃している。
残念なことに、コードスニペットが欠落しているため、質問は迅速で適切な解決策が得られない。
目的: SO の質問応答システムと統合するためのツールである GENCNIPPET を導入する計画である。
GENCNIPPETは、適切なコード例(必要であれば)を生成して、タイムリーなソリューションに対する質問をサポートする。
方法論: 私たちは最初にSO April 2024データダンプをダウンロードしました。このダンプには、コードスニペットを持つPythonに関連する144万の質問と、Javaに関連する143万の質問が含まれています。
そして、これらの質問をフィルタリングして、最先端の機械学習モデルを用いて、真にコードスニペットを必要とするものを特定する。
次に、高品質なデータを確保するために、正のスコアで質問を選択します。
我々の計画はLlama-3モデル(例:Llama-3-8B)を微調整し、選択した質問の80%をトレーニング、10%を検証します。
Llamaモデルを選択する主な理由は、オープンソースアクセシビリティと堅牢な微調整機能である。
GENCNIPPETはブラウザプラグインとしてSO質問システムに統合される。
ターゲットの質問に合わせたコードスニペットを生成するために、微調整されたモデルと通信する。
生成されたコード例の有効性は、現実のシナリオにおける真実、ユーザ視点、ライブ(ワイルド)テストに対する自動評価によって評価されます。
関連論文リスト
- Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation [2.2160604288512324]
ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。
実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。
残念なことに、このようなコードスニペットはいくつかの未解決の課題のために常に問題を再現できなかった。
論文 参考訳(メタデータ) (2024-07-13T22:55:35Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Can We Identify Stack Overflow Questions Requiring Code Snippets?
Investigating the Cause & Effect of Missing Code Snippets [8.107650447105998]
Stack Overflow(SO)のQ&Aサイトでは、コード関連の問題に対するソリューションをリクエストすることが多い。
彼らはしばしば、質問の提出時に必要なコードスニペットを見逃す。
本研究では,SO質問におけるコードスニペットの欠落の原因と影響について検討する。
論文 参考訳(メタデータ) (2024-02-07T04:25:31Z) - Unsupervised Question Duplicate and Related Questions Detection in
e-learning platforms [1.8749305679160364]
そこで本稿では,教師付きデータを使わずに,ほぼ重複した,意味的な質問を提示するツールを提案する。
提案するツールは、統計的アプローチとニューラルネットワークアプローチの教師なしハイブリッドパイプラインに従う。
我々はQDupがほぼ重複した質問を検知し、関連する質問を驚くほどの精度とスピードで提案できることを実証した。
論文 参考訳(メタデータ) (2022-12-20T11:52:52Z) - CS1QA: A Dataset for Assisting Code-based Question Answering in an
Introductory Programming Course [13.61096948994569]
CS1QAは、Pythonを使った入門プログラミングクラスでチャットログから収集された9,237の質問応答ペアで構成されている。
各質問には生徒のコードと、質問に答えるコードの一部が添付されている。
論文 参考訳(メタデータ) (2022-10-26T05:40:34Z) - CodeQA: A Question Answering Dataset for Source Code Comprehension [82.63394952538292]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (2021-09-17T06:06:38Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Few-Shot Complex Knowledge Base Question Answering via Meta
Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。
従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。
本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-29T18:34:55Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。