論文の概要: Predicting long time contributors with knowledge units of programming languages: an empirical study
- arxiv url: http://arxiv.org/abs/2405.13852v1
- Date: Wed, 22 May 2024 17:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 21:02:51.490722
- Title: Predicting long time contributors with knowledge units of programming languages: an empirical study
- Title(参考訳): プログラミング言語の知識単位による長期的コントリビュータの予測--実証的研究
- Authors: Md Ahasanuzzaman, Gustavo A. Oliva, Ahmed E. Hassan,
- Abstract要約: 本稿では,LTCを予測するために,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
我々は、KULTCと呼ばれる予測モデルを構築し、KUベースの特徴を5つの異なる次元に沿って活用する。
- 参考スコア(独自算出の注目度): 3.6840775431698893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting potential long-time contributors (LTCs) early allows project maintainers to effectively allocate resources and mentoring to enhance their development and retention. Mapping programming language expertise to developers and characterizing projects in terms of how they use programming languages can help identify developers who are more likely to become LTCs. However, prior studies on predicting LTCs do not consider programming language skills. This paper reports an empirical study on the usage of knowledge units (KUs) of the Java programming language to predict LTCs. A KU is a cohesive set of key capabilities that are offered by one or more building blocks of a given programming language. We build a prediction model called KULTC, which leverages KU-based features along five different dimensions. We detect and analyze KUs from the studied 75 Java projects (353K commits and 168K pull requests) as well as 4,219 other Java projects in which the studied developers previously worked (1.7M commits). We compare the performance of KULTC with the state-of-the-art model, which we call BAOLTC. Even though KULTC focuses exclusively on the programming language perspective, KULTC achieves a median AUC of at least 0.75 and significantly outperforms BAOLTC. Combining the features of KULTC with the features of BAOLTC results in an enhanced model (KULTC+BAOLTC) that significantly outperforms BAOLTC with a normalized AUC improvement of 16.5%. Our feature importance analysis with SHAP reveals that developer expertise in the studied project is the most influential feature dimension for predicting LTCs. Finally, we develop a cost-effective model (KULTC_DEV_EXP+BAOLTC) that significantly outperforms BAOLTC. These encouraging results can be helpful to researchers who wish to further study the developers' engagement/retention to FLOSS projects or build models for predicting LTCs.
- Abstract(参考訳): 潜在的長期貢献者(LTC)を早期に予測することで、プロジェクトメンテナーはリソースやメンタリングを効果的に割り当てて、開発と維持を強化することができる。
プログラミング言語の専門知識を開発者にマッピングし、プログラミング言語の使い方を特徴付けることは、LCCになりやすい開発者を特定するのに役立つ。
しかし、LCCの予測に関する先行研究では、プログラミング言語のスキルは考慮されていない。
本稿では,LTCを予測するために,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
我々は、KULTCと呼ばれる予測モデルを構築し、KUベースの特徴を5つの異なる次元に沿って活用する。
我々は、調査対象の75のJavaプロジェクト(353Kコミットと168Kプルリクエスト)と、調査対象の開発者が以前作業した4,219のJavaプロジェクト(1.7Mコミット)から、KUを検出し、分析した。
我々はKULTCの性能をBAOLTCと呼ぶ最先端モデルと比較する。
KULTCはプログラミング言語の観点にのみ焦点を絞っているが、KULTCは最低でも0.75の中央値AUCを達成し、BAOLTCを大きく上回っている。
KULTCの特徴とBAOLTCの特徴を組み合わせることで、改良されたモデル(KULTC+BAOLTC)がBAOLTCを大きく上回り、通常のAUCの改善は16.5%となった。
SHAPによる特徴重要度分析により,研究プロジェクトにおける開発者の専門知識がLCCの予測に最も影響を及ぼすことが明らかとなった。
最後に,BAOLTCを著しく上回る費用対効果モデル(KULTC_DEV_EXP+BAOLTC)を開発した。
これらの奨励的な結果は、FLOSSプロジェクトへの開発者の関与と維持、あるいはLCCを予測するためのモデルの構築について、さらなる研究を望む研究者に役立ちます。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation [2.93322471069531]
開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。
この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
論文 参考訳(メタデータ) (2024-02-18T20:48:09Z) - An Empirical Study on Low Code Programming using Traditional vs Large Language Model Support [34.74300707132544]
低コードプログラミング(Low-code Programming、LCP)は、より抽象度の低いモデルを用いたプログラミングである。
LCP と LLM ベースの LCP に対する従来のアプローチの技術的原則と応用シナリオは、大きく異なる。
論文 参考訳(メタデータ) (2024-02-02T05:52:32Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - Mini-GPTs: Efficient Large Language Models through Contextual Pruning [0.0]
本稿では,コンテキストプルーニングによるMini-GPTの開発における新しいアプローチを提案する。
我々は、米国法、医学Q&A、スカイリム対話、英台湾翻訳、経済記事など、多種多様な複雑なデータセットにこの技術を適用している。
論文 参考訳(メタデータ) (2023-12-20T00:48:13Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Exploring and Characterizing Large Language Models For Embedded System
Development and Debugging [10.967443876391611]
大規模言語モデル (LLM) は、コードを生成する際、顕著な能力を示しているが、組み込みシステム用のソフトウェアを開発する能力は研究されていない。
我々は,組込みシステム開発におけるLLMの能力と限界を評価するためのオープンソースフレームワークを開発した。
この発見を利用して、人間のプログラマがこれらのツールとどのように相互作用するかを研究し、組み込みシステムを構築するためのヒューマンAIベースのソフトウェアエンジニアリングワークフローを開発する。
論文 参考訳(メタデータ) (2023-07-07T20:14:22Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Incentive Mechanism Design for Resource Sharing in Collaborative Edge
Learning [106.51930957941433]
5GとBeyondネットワークでは、人工知能のアプリケーションがますます普及すると予想されている。
これは、現在のクラウド中心のモデルトレーニングアプローチから、エッジラーニングとして知られるエッジコンピューティングベースの協調学習スキームへのパラダイムシフトを必要とする。
論文 参考訳(メタデータ) (2020-05-31T12:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。