論文の概要: GBM Returns the Best Prediction Performance among Regression Approaches: A Case Study of Stack Overflow Code Quality
- arxiv url: http://arxiv.org/abs/2505.10019v1
- Date: Thu, 15 May 2025 07:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.212524
- Title: GBM Returns the Best Prediction Performance among Regression Approaches: A Case Study of Stack Overflow Code Quality
- Title(参考訳): GBMは回帰アプローチの中で最高の予測性能を返す:スタックオーバーフローコード品質のケーススタディ
- Authors: Sherlock A. Licorish, Brendon Woodford, Lakmal Kiyaduwa Vithanage, Osayande Pascal Omondiagbe,
- Abstract要約: Stack Overflow(Java)コード品質を予測する変数と、最高の予測能力を提供する回帰アプローチを検討した。
長いStack Overflowコードは、コード違反が多い傾向があり、より高いスコアを得た質問は、より多くのビューを惹きつけ、Stack Overflowの質問に追加される回答が増えるほど、提供されるコードには通常より多くのエラーが観測される。
- 参考スコア(独自算出の注目度): 2.5515299924109858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners are increasingly dependent on publicly available resources for supporting their knowledge needs during software development. This has thus caused a spotlight to be paced on these resources, where researchers have reported mixed outcomes around the quality of these resources. Stack Overflow, in particular, has been studied extensively, with evidence showing that code resources on this platform can be of poor quality at times. Limited research has explored the variables or factors that predict code quality on Stack Overflow, but instead has focused on ranking content, identifying defects and predicting future content. In many instances approaches used for prediction are not evaluated to identify the best techniques. Contextualizing the Stack Overflow code quality problem as regression-based, we examined the variables that predict Stack Overflow (Java) code quality, and the regression approach that provides the best predictive power. Six approaches were considered in our evaluation, where Gradient Boosting Machine (GBM) stood out. In addition, longer Stack Overflow code tended to have more code violations, questions that were scored higher also attracted more views and the more answers that are added to questions on Stack Overflow the more errors were typically observed in the code that was provided. Outcomes here point to the value of the GBM ensemble learning mechanism, and the need for the practitioner community to be prudent when contributing and reusing Stack Overflow Java coding resource.
- Abstract(参考訳): 実践者は、ソフトウェア開発における知識ニーズをサポートするために、公開リソースにますます依存している。
これにより、これらの資源にスポットライトが当てられ、研究者はこれらの資源の品質に関する様々な結果を報告した。
特にStack Overflowは広範囲に研究されており、このプラットフォーム上のコードリソースが品質の低さを証明している。
限定的な調査では、Stack Overflowのコード品質を予測する変数や要因を調査したが、代わりに、コンテンツのランク付け、欠陥の特定、将来のコンテンツの予測に重点を置いている。
多くの場合、予測に使用されるアプローチは、最良のテクニックを特定するために評価されない。
Stack Overflowのコード品質問題を回帰ベースとして、Stack Overflow(Java)のコード品質を予測する変数と、最高の予測力を提供する回帰アプローチを検討した。
評価では, グラディエントブースティングマシン (GBM) が際立った6つのアプローチを検討した。
さらに、より長いStack Overflowコードは、コード違反が多い傾向があり、より高いスコアを得た質問は、より多くのビューを惹きつけ、Stack Overflowの質問に追加された回答は、提供されたコードで通常より多くのエラーが観測された。
ここでの成果は、GBMアンサンブル学習メカニズムの価値と、Stack Overflow Javaコーディングリソースのコントリビュートと再利用において、実践者コミュニティが慎重になる必要性を示している。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Towards Better Answers: Automated Stack Overflow Post Updating [11.85319691188159]
このタスクのために、Soup(Stack Overflow Updator for Post)という新しいフレームワークを紹介します。
Soup氏は、Valid Comment-Edit Prediction(VCP)とAutomatic Post Updating(APU)の2つの重要なタスクに対処している。
論文 参考訳(メタデータ) (2024-08-17T04:48:53Z) - Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。
近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。
高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文 参考訳(メタデータ) (2024-06-21T05:05:39Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - A Tale of Two Communities: Exploring Academic References on Stack Overflow [1.2914230269240388]
異なる分野の関心を持つStack Overflowコミュニティが、様々な周波数と速度で学術文献を扱っていることがわかった。
矛盾するパターンは、一部の規律が、その利益と開発軌道を、対応する実践者コミュニティから逸脱した可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-03-14T20:33:55Z) - Answer ranking in Community Question Answering: a deep learning approach [0.0]
本研究は, 地域質問回答の回答ランキングを, 深層学習のアプローチで進めることによって, 技術の現状を推し進めるものである。
Stack OverflowのWebサイトにポストされた質問と回答の大規模なデータセットを作成しました。
我々は,高密度埋め込みとLSTMネットワークの自然言語処理機能を利用して,受理された応答属性の予測を行った。
論文 参考訳(メタデータ) (2022-10-16T18:47:41Z) - Features that Predict the Acceptability of Java and JavaScript Answers
on Stack Overflow [5.332217496693262]
私たちは、最も人気のある2つのタグ(JavaとJavaScript)の質問と回答を分析してStack Overflowデータセットを調査しました。
その結果,回答中のコードの長さ,ユーザの評判,質問と回答間のテキストの類似性,質問と回答間の時間ラグは,受け入れられない回答と受け入れられない回答を区別する最も高い予測力を有することがわかった。
論文 参考訳(メタデータ) (2021-01-08T03:09:38Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - StackOverflow vs Kaggle: A Study of Developer Discussions About Data
Science [0.0]
本稿では,StackOverflowとKaggleの197836ポストの特性について実験を行った。
主な発見は、StackOverflowで最も多いトピックに関するものだ。
どちらのコミュニティでも、DSに関する議論は劇的なペースで増えている。
アンサンブルアルゴリズムはKaggleで最も言及されているML/DLアルゴリズムであるが、StackOverflowではほとんど議論されていない。
論文 参考訳(メタデータ) (2020-06-06T06:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。