論文の概要: How Do Java Developers Reuse StackOverflow Answers in Their GitHub
Projects?
- arxiv url: http://arxiv.org/abs/2308.09573v1
- Date: Fri, 18 Aug 2023 14:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:39:37.241555
- Title: How Do Java Developers Reuse StackOverflow Answers in Their GitHub
Projects?
- Title(参考訳): Java開発者は、GitHubプロジェクトでStackOverflowの回答をどのように再利用するか?
- Authors: Juntong Chen and Kulendra Kumar Kaushal and Rutwik Kulkarni and Na
Meng
- Abstract要約: StackOverflow (SO)は、ソフトウェア開発者およびコンピュータ科学者のための広く使われているQ&A(Q&A)ウェブサイトである。
GitHubは、ソフトウェアプロジェクトの保存、追跡、コラボレーションに使用されるオンライン開発プラットフォームである。
私たちは、GitHubで利用可能なJavaプロジェクトで再利用されたSOの回答をマイニングして、実証的研究を行いました。
- 参考スコア(独自算出の注目度): 3.3102273572393015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: StackOverflow (SO) is a widely used question-and-answer (Q\&A) website for
software developers and computer scientists. GitHub is an online development
platform used for storing, tracking, and collaborating on software projects.
Prior work relates the information mined from both platforms to link user
accounts or compare developers' activities across platforms. However, not much
work is done to characterize the SO answers reused by GitHub projects. For this
paper, we did an empirical study by mining the SO answers reused by Java
projects available on GitHub. We created a hybrid approach of clone detection,
keyword-based search, and manual inspection, to identify the answer(s) actually
leveraged by developers. Based on the identified answers, we further studied
topics of the discussion threads, answer characteristics (e.g., scores, ages,
code lengths, and text lengths), and developers' reuse practices.
We observed that most reused answers offer programs to implement specific
coding tasks. Among all analyzed SO discussion threads, the reused answers
often have relatively higher scores, older ages, longer code, and longer text
than unused answers. In only 9% of scenarios (40/430), developers fully copied
answer code for reuse. In the remaining scenarios, they reused partial code or
created brand new code from scratch. Our study characterized 130 SO discussion
threads referred to by Java developers in 357 GitHub projects. Our empirical
findings can guide SO answerers to provide better answers, and shed lights on
future research related to SO and GitHub.
- Abstract(参考訳): StackOverflow (SO)は、ソフトウェア開発者およびコンピュータ科学者のための広く使われているQ&Aウェブサイトである。
GitHubは、ソフトウェアプロジェクトの保存、追跡、コラボレーションに使用されるオンライン開発プラットフォームである。
以前の作業は、ユーザアカウントをリンクしたり、プラットフォーム間で開発者のアクティビティを比較するために、両方のプラットフォームから掘り出された情報に関するものだった。
しかし、githubプロジェクトで再利用されたso回答を特徴付けるための作業はあまり行われていない。
本稿では,github で利用可能な java プロジェクトで再利用された so 回答をマイニングして,経験的研究を行った。
クローン検出,キーワードに基づく検索,手作業によるインスペクションというハイブリッドアプローチを開発し,開発者が実際に活用している回答を識別した。
特定した回答に基づいて、議論スレッドのトピック、回答の特徴(スコア、年齢、コードの長さ、テキストの長さなど)、開発者の再利用プラクティスについても検討した。
再利用された回答のほとんどは、特定のコーディングタスクを実装するプログラムを提供する。
分析された議論スレッドの中で、再利用された回答は、比較的高いスコア、古い年齢、長いコード、未使用の回答よりも長いテキストを持つことが多い。
9%のシナリオ(40/430)で、開発者は再利用のために完全に応答コードをコピーした。
残りのシナリオでは、部分的なコードを再利用したり、スクラッチから新しいコードを作成したりしました。
357のgithubプロジェクトでjava開発者が参照する130のスレッドを特徴とする。
我々の経験的発見は、SO回答者により良い回答を提供するよう誘導し、SOとGitHubに関する将来の研究に光を当てることができます。
関連論文リスト
- DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - How is Software Reuse Discussed in Stack Overflow? [12.586676749644342]
我々は、コード再利用時に開発者が直面する課題をより深く理解するために、1,409件の投稿について実証的研究を行った。
この結果から, 「視覚スタジオ」 が質問投稿における最重要課題であり, 再利用を目的として, 開発者が頻繁に利用するデザインパターンが存在することがわかった。
論文 参考訳(メタデータ) (2023-11-01T03:13:36Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Looking for related discussions on GitHub Discussions [18.688096673390586]
GitHub Discussionsは、プラットフォーム上にホストされているユーザとコミュニティのメンバー間の共同ディスカッションを促進するための、ネイティブフォーラムである。
GitHub DiscussionsはPCQAフォーラムに似ているが、このような環境が直面しているのと同じような課題に直面している。
重複した投稿は、同じコンテンツ(そして正確なコピーかもしれない)を持っているが、ほぼ重複して、同様のトピックや情報を共有する。
本稿では,Sentence-BERT事前学習モデル,RD-Detectorに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-23T20:41:33Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - GitHub Discussions: An Exploratory Study of Early Adoption [23.844242004415406]
私たちは2020年1月から7月にかけて、GitHubの議論を早期に取り入れた混合メソッド調査を実施しました。
1) エラー,予期せぬ動作,コードレビューが議論の代表的なカテゴリであること,(2) プロジェクトメンバの関与と議論頻度との間には肯定的な関係があること,(3) 開発者はGitHubの議論が有用であると考えているが,議論と問題の間のトピック重複の問題に直面している。
私たちの発見は、GitHub Discussionsを使用するためのデータインフォームドガイダンスへの第一歩であり、この新たなコミュニケーションチャネルに関する今後の研究の道を開くものです。
論文 参考訳(メタデータ) (2021-02-10T02:49:03Z) - Features that Predict the Acceptability of Java and JavaScript Answers
on Stack Overflow [5.332217496693262]
私たちは、最も人気のある2つのタグ(JavaとJavaScript)の質問と回答を分析してStack Overflowデータセットを調査しました。
その結果,回答中のコードの長さ,ユーザの評判,質問と回答間のテキストの類似性,質問と回答間の時間ラグは,受け入れられない回答と受け入れられない回答を区別する最も高い予測力を有することがわかった。
論文 参考訳(メタデータ) (2021-01-08T03:09:38Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。