論文の概要: Revealing the value of Repository Centrality in lifespan prediction of Open Source Software Projects
- arxiv url: http://arxiv.org/abs/2405.07508v1
- Date: Mon, 13 May 2024 07:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:34:42.550790
- Title: Revealing the value of Repository Centrality in lifespan prediction of Open Source Software Projects
- Title(参考訳): オープンソースソフトウェアプロジェクトのライフスパン予測におけるリポジトリ中心性の価値について
- Authors: Runzhi He, Hengzhi Ye, Minghui Zhou,
- Abstract要約: ユーザ・リポジトリ・ネットワークから新しいメトリクスを提案し,プロジェクト・デプリケーション・予測器に適合させる。
2011年から2023年までの103,354の非フォークGitHub OSSプロジェクトを含む包括的なデータセットを構築しました。
本研究は,HITSの集中度指標とリポジトリの非推奨リスクの相関関係を明らかにする。
- 参考スコア(独自算出の注目度): 5.438725298163702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Open Source Software is the building block of modern software. However, the prevalence of project deprecation in the open source world weakens the integrity of the downstream systems and the broad ecosystem. Therefore it calls for efforts in monitoring and predicting project deprecations, empowering stakeholders to take proactive measures. Challenge: Existing techniques mainly focus on static features on a point in time to make predictions, resulting in limited effects. Goal: We propose a novel metric from the user-repository network, and leverage the metric to fit project deprecation predictors and prove its real-life implications. Method: We establish a comprehensive dataset containing 103,354 non-fork GitHub OSS projects spanning from 2011 to 2023. We propose repository centrality, a family of HITS weights that captures shifts in the popularity of a repository in the repository-user star network. Further with the metric, we utilize the advancements in gradient boosting and deep learning to fit survival analysis models to predict project lifespan or its survival hazard. Results: Our study reveals a correlation between the HITS centrality metrics and the repository deprecation risk. A drop in the HITS weights of a repository indicates a decline in its centrality and prevalence, leading to an increase in its deprecation risk and a decrease in its expected lifespan. Our predictive models powered by repository centrality and other repository features achieve satisfactory accuracy on the test set, with repository centrality being the most significant feature among all. Implications: This research offers a novel perspective on understanding the effect of prevalence on the deprecation of OSS repositories. Our approach to predict repository deprecation help detect health status of project and take actions in advance, fostering a more resilient OSS ecosystem.
- Abstract(参考訳): 背景: オープンソースソフトウェアは現代のソフトウェアの構成要素です。
しかし、オープンソースプロジェクトにおけるプロジェクト非推奨の流行は、下流システムと広範なエコシステムの整合性を弱める。
そのため、プロジェクト非推奨を監視・予測し、利害関係者に積極的な措置を取るよう促すことが求められている。
課題: 既存のテクニックは主に予測を行う時点の静的機能に重点を置いており、結果として影響は限られている。
Goal: ユーザリポジトリネットワークから新たなメトリックを提案し,そのメトリックを活用してプロジェクトの非推奨予測に適合させ,その実生活への影響を実証する。
メソッド: 2011年から2023年までの103,354の非フォークのGitHub OSSプロジェクトを含む包括的なデータセットを確立する。
本稿では,レポジトリ・ユーザ・スターネットワークにおけるレポジトリの人気の変化を捉えたHITS重みのファミリーであるレポジトリ・集中性を提案する。
さらに, 勾配向上と深層学習の進歩を利用して, 生存率分析モデルに適合し, プロジェクト寿命や生存リスクを予測する。
結果: HITS中央値とリポジトリの非推奨リスクとの間には相関が認められた。
リポジトリのHITS重量の減少は、その中央値と有病率の低下を示し、沈降リスクが増加し、寿命が減少することを示している。
リポジトリの集中度やその他のリポジトリ機能を利用した予測モデルは、テストセット上で満足のいく精度を実現します。
本研究はOSSリポジトリの非推奨化に対する有病率の影響を理解するための新しい視点を提供する。
リポジトリの非推奨化を予測するアプローチは,プロジェクトの健全性を検知し,事前に行動を取る上で有効であり,よりレジリエントなOSSエコシステムを育む。
関連論文リスト
- Forecasting the risk of software choices: A model to foretell security vulnerabilities from library dependencies and source code evolution [4.538870924201896]
図書館レベルでの脆弱性予測が可能なモデルを提案する。
我々のモデルは、将来の時間帯でソフトウェアプロジェクトがCVEの開示に直面する確率を推定することができる。
論文 参考訳(メタデータ) (2024-11-17T23:36:27Z) - QBI: Quantile-Based Bias Initialization for Efficient Private Data Reconstruction in Federated Learning [0.5497663232622965]
フェデレーション学習は、ユーザのプライバシを損なうことなく、分散データ上で機械学習モデルのトレーニングを可能にする。
近年の研究では、中央のエンティティが共有モデル更新からプライベートデータを完全に再構築できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T20:19:32Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - EvCenterNet: Uncertainty Estimation for Object Detection using
Evidential Learning [26.535329379980094]
EvCenterNetは、新しい不確実性を認識した2Dオブジェクト検出フレームワークである。
分類と回帰の不確実性の両方を推定するために、顕在的学習を用いる。
我々は、KITTIデータセット上でモデルをトレーニングし、配布外のデータセットに挑戦して評価する。
論文 参考訳(メタデータ) (2023-03-06T11:07:11Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Predicting the Number of Reported Bugs in a Software Repository [0.0]
本研究では,Long Short Term Memory Neural Networks (LSTM), Auto-Regressive Integrated moving average (ARIMA), Random Forest Regressorの8種類の時系列予測モデルについて検討した。
異なる性能指標に基づいて、各モデルの長期予測の品質を分析します。
評価は、大規模なオープンソースソフトウェアアプリケーションであるMozilla上で行われる。
論文 参考訳(メタデータ) (2021-04-24T19:06:35Z) - Moving from Cross-Project Defect Prediction to Heterogeneous Defect
Prediction: A Partial Replication Study [0.0]
以前の研究では、しばしば機械学習技術を使ってバグ予測モデルを構築し、検証し、改善した。
これらのモデルから得られる知識は、ソースプロジェクトで十分なメトリクスが収集されていない場合、ターゲットプロジェクトと重複することはない。
得られた結果の再現と検証により,系統的に異種欠陥予測(HDP)を統合した。
その結果,hdpアルゴリズムはパラメータ選択に対する感度が高いため,多くのケースで実現不可能であることが判明した。
論文 参考訳(メタデータ) (2021-03-05T06:29:45Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。