論文の概要: Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation
- arxiv url: http://arxiv.org/abs/2407.10023v1
- Date: Sat, 13 Jul 2024 22:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:48:19.199641
- Title: Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation
- Title(参考訳): スタックオーバーフローの質問で報告された問題の再現性: 課題、影響と評価
- Authors: Saikat Mondal, Banani Roy,
- Abstract要約: ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。
実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。
残念なことに、このようなコードスニペットはいくつかの未解決の課題のために常に問題を再現できなかった。
- 参考スコア(独自算出の注目度): 2.2160604288512324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software developers often submit questions to technical Q&A sites like Stack Overflow (SO) to resolve code-level problems. In practice, they include example code snippets with questions to explain the programming issues. Existing research suggests that users attempt to reproduce the reported issues using given code snippets when answering questions. Unfortunately, such code snippets could not always reproduce the issues due to several unmet challenges that prevent questions from receiving appropriate and prompt solutions. One previous study investigated reproducibility challenges and produced a catalog. However, how the practitioners perceive this challenge catalog is unknown. Practitioners' perspectives are inevitable in validating these challenges and estimating their severity. This study first surveyed 53 practitioners to understand their perspectives on reproducibility challenges. We attempt to (a) see whether they agree with these challenges, (b) determine the impact of each challenge on answering questions, and (c) identify the need for tools to promote reproducibility. Survey results show that - (a) about 90% of the participants agree with the challenges, (b) "missing an important part of code" most severely hurt reproducibility, and (c) participants strongly recommend introducing automated tool support to promote reproducibility. Second, we extract \emph{nine} code-based features (e.g., LOC, compilability) and build five Machine Learning (ML) models to predict issue reproducibility. Early detection might help users improve code snippets and their reproducibility. Our models achieve 84.5% precision, 83.0% recall, 82.8% F1-score, and 82.8% overall accuracy, which are highly promising. Third, we systematically interpret the ML model and explain how code snippets with reproducible issues differ from those with irreproducible issues.
- Abstract(参考訳): ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。
実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。
既存の研究では、ユーザーは質問に答える際に、与えられたコードスニペットを使って報告された問題を再現しようとすることを示唆している。
残念なことに、このようなコードスニペットは、質問が適切で迅速な解決策を受け取るのを防ぐいくつかの未解決の課題のために、問題を常に再現することができなかった。
前回の研究では再現性の問題を調査し、カタログを作成した。
しかし、その実践者がどのようにしてこの挑戦のカタログを知覚したのかは不明である。
実践者の視点は、これらの課題を検証し、深刻さを見積もる上で必然的である。
本研究は,再現性の課題に対する視点を理解するために,まず53人の実践者を調査した。
試みる
(a)これらの課題に同意するかどうかを見極める。
(b)各課題が質問に対する回答に与える影響を判断し、
(c)再現性を促進するためのツールの必要性を特定する。
調査結果からわかるのは―
(a)参加者の約90%が課題に同意している。
(b)「コードの重要な部分の欠落」が最も再現性を悪化させ、
(c)参加者は再現性を促進するための自動ツールサポートの導入を強く推奨する。
次に、コードベースの特徴(例えば、LOC、コンパイル可能性)を抽出し、5つの機械学習(ML)モデルを構築し、問題の再現性を予測する。
早期検出は、ユーザーがコードスニペットとその再現性を改善するのに役立つかもしれない。
我々のモデルは84.5%の精度、83.0%のリコール、82.8%のF1スコア、82.8%の全体的な精度を達成し、非常に有望である。
第三に、MLモデルを体系的に解釈し、再現可能な問題のあるコードスニペットが、再現不可能な問題を持つコードスニペットとどのように異なるかを説明する。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - Can We Identify Stack Overflow Questions Requiring Code Snippets?
Investigating the Cause & Effect of Missing Code Snippets [8.107650447105998]
Stack Overflow(SO)のQ&Aサイトでは、コード関連の問題に対するソリューションをリクエストすることが多い。
彼らはしばしば、質問の提出時に必要なコードスニペットを見逃す。
本研究では,SO質問におけるコードスニペットの欠落の原因と影響について検討する。
論文 参考訳(メタデータ) (2024-02-07T04:25:31Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions
about Code [0.0]
我々は,3つの生成事前学習型トランスフォーマー(GPT)モデルの有効性を,MCQ (Multiple-choice Question) の評価に答えるために分析した。
これらの知見は、プログラミングコースにおける教育実践や評価に適応するために、教育者によって活用することができる。
論文 参考訳(メタデータ) (2023-03-09T16:52:12Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Hurdles to Progress in Long-form Question Answering [34.805039943215284]
タスクの定式化は評価とデータセットの作成に関する根本的な課題を提起する。
まず,最先端性能を実現するために,注意の疎化とコントラストレトリバー学習による新しいシステムを設計する。
論文 参考訳(メタデータ) (2021-03-10T20:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。