論文の概要: How Do Java Developers Reuse StackOverflow Answers in Their GitHub Projects?
- arxiv url: http://arxiv.org/abs/2308.09573v2
- Date: Thu, 29 Aug 2024 16:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:38:30.315980
- Title: How Do Java Developers Reuse StackOverflow Answers in Their GitHub Projects?
- Title(参考訳): Java開発者は、GitHubプロジェクトでStackOverflowの回答をどのように再利用するか?
- Authors: Juntong Chen, Yan Zhao, Na Meng,
- Abstract要約: StackOverflow (SO)は、ソフトウェア開発者およびコンピュータ科学者のための広く使われているQ&A(Q&A)ウェブサイトである。
GitHubは、ソフトウェアプロジェクトの保存、追跡、コラボレーションに使用されるオンライン開発プラットフォームである。
私たちは、GitHubで利用可能なJavaプロジェクトで再利用されたSOの回答をマイニングして、実証的研究を行いました。
- 参考スコア(独自算出の注目度): 5.064338135936606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: StackOverflow (SO) is a widely used question-and-answer (Q\&A) website for software developers and computer scientists. GitHub is an online development platform used for storing, tracking, and collaborating on software projects. Prior work relates the information mined from both platforms to link user accounts or compare developers' activities across platforms. However, not much work is done to characterize the SO answers reused by GitHub projects. For this paper, we did an empirical study by mining the SO answers reused by Java projects available on GitHub. We created a hybrid approach of clone detection, keyword-based search, and manual inspection, to identify the answer(s) actually leveraged by developers. Based on the identified answers, we further studied topics of the discussion threads, answer characteristics (e.g., scores, ages, code lengths, and text lengths), and developers' reuse practices. We observed that most reused answers offer programs to implement specific coding tasks. Among all analyzed SO discussion threads, the reused answers often have relatively higher scores, older ages, longer code, and longer text than unused answers. In only 9% of scenarios (40/430), developers fully copied answer code for reuse. In the remaining scenarios, they reused partial code or created brand new code from scratch. Our study characterized 130 SO discussion threads referred to by Java developers in 357 GitHub projects. Our empirical findings can guide SO answerers to provide better answers, and shed lights on future research related to SO and GitHub.
- Abstract(参考訳): StackOverflow (SO)は、ソフトウェア開発者およびコンピュータ科学者のための広く使われているQ&A(Q&A)ウェブサイトである。
GitHubは、ソフトウェアプロジェクトの保存、追跡、コラボレーションに使用されるオンライン開発プラットフォームである。
以前の作業は、ユーザアカウントをリンクしたり、プラットフォーム間での開発者のアクティビティを比較するために、両方のプラットフォームから掘り出された情報に関するものだった。
しかし、GitHubプロジェクトで再利用されているSOの回答を特徴づける作業はあまり行われていない。
本稿では、GitHubで利用可能なJavaプロジェクトで再利用されたSOの回答をマイニングして、実証的研究を行った。
我々は、開発者が実際に活用している回答を識別するために、クローン検出、キーワードベースの検索、手動検査のハイブリッドアプローチを作成しました。
特定された回答に基づいて、議論スレッドのトピック、回答の特徴(例えば、スコア、年齢、コードの長さ、テキストの長さ)、開発者の再利用プラクティスについてさらに研究した。
再利用された回答のほとんどは、特定のコーディングタスクを実装するプログラムを提供する。
分析されたSOの議論スレッドの中で、再利用された回答は、比較的高いスコア、古い年齢、長いコード、未使用の回答よりも長いテキストを持つことが多い。
わずか9%のシナリオ(40/430)で、開発者は再利用のための回答コードを完全にコピーした。
残りのシナリオでは、部分的なコードを再利用するか、スクラッチからまったく新しいコードを作成しました。
調査では,357のGitHubプロジェクトでJava開発者が参照した130SOの議論スレッドを特徴とした。
我々の経験的発見は、SO回答者により良い回答を提供するよう誘導し、SOとGitHubに関する将来の研究に光を当てることができます。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation [2.225268436173329]
StackRAGは,大規模言語モデルに基づく検索拡張マルチエージェント生成ツールである。
SOからの知識を集約して、生成された回答の信頼性を高める、という2つの世界を組み合わせています。
最初の評価は、生成された回答が正確で正確で、関連があり、有用であることを示している。
論文 参考訳(メタデータ) (2024-06-19T21:07:35Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - How is Software Reuse Discussed in Stack Overflow? [12.586676749644342]
我々は、コード再利用時に開発者が直面する課題をより深く理解するために、1,409件の投稿について実証的研究を行った。
この結果から, 「視覚スタジオ」 が質問投稿における最重要課題であり, 再利用を目的として, 開発者が頻繁に利用するデザインパターンが存在することがわかった。
論文 参考訳(メタデータ) (2023-11-01T03:13:36Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Looking for related discussions on GitHub Discussions [18.688096673390586]
GitHub Discussionsは、プラットフォーム上にホストされているユーザとコミュニティのメンバー間の共同ディスカッションを促進するための、ネイティブフォーラムである。
GitHub DiscussionsはPCQAフォーラムに似ているが、このような環境が直面しているのと同じような課題に直面している。
重複した投稿は、同じコンテンツ(そして正確なコピーかもしれない)を持っているが、ほぼ重複して、同様のトピックや情報を共有する。
本稿では,Sentence-BERT事前学習モデル,RD-Detectorに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-23T20:41:33Z) - Features that Predict the Acceptability of Java and JavaScript Answers
on Stack Overflow [5.332217496693262]
私たちは、最も人気のある2つのタグ(JavaとJavaScript)の質問と回答を分析してStack Overflowデータセットを調査しました。
その結果,回答中のコードの長さ,ユーザの評判,質問と回答間のテキストの類似性,質問と回答間の時間ラグは,受け入れられない回答と受け入れられない回答を区別する最も高い予測力を有することがわかった。
論文 参考訳(メタデータ) (2021-01-08T03:09:38Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。