論文の概要: Cross-ecosystem categorization: A manual-curation protocol for the
categorization of Java Maven libraries along Python PyPI Topics
- arxiv url: http://arxiv.org/abs/2403.06300v1
- Date: Sun, 10 Mar 2024 20:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 21:01:29.716068
- Title: Cross-ecosystem categorization: A manual-curation protocol for the
categorization of Java Maven libraries along Python PyPI Topics
- Title(参考訳): cross-ecosystem categorization: python pypiトピックによるjava mavenライブラリの分類のための手動キュレーションプロトコル
- Authors: Ranindya Paramitha, Yuan Feng, Fabio Massacci, Carlos E. Budde
- Abstract要約: 本研究では,機能的目的によってソフトウェアを言語に依存しない分類する手法について検討する。
これにより、ソフトウェアメトリクスの比較に必要な機能的な指紋情報が得られる。
- 参考スコア(独自算出の注目度): 6.035129972551483
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Context: Software of different functional categories, such as text processing
vs. networking, has different profiles in terms of metrics like security and
updates. Using popularity to compare e.g. Java vs. Python libraries might give
a skewed perspective, as the categories of the most popular software vary from
one ecosystem to the next. How can one compare libraries datasets across
software ecosystems, when not even the category names are uniform among them?
Objective: We study how to generate a language-agnostic categorisation of
software by functional purpose, that enables cross-ecosystem studies of
libraries datasets. This provides the functional fingerprint information needed
for software metrics comparisons. Method: We designed and implemented a
human-guided protocol to categorise libraries from software ecosystems.
Category names mirror PyPI Topic classifiers, but the protocol is generic and
can be applied to any ecosystem. We demonstrate it by categorising 256
Java/Maven libraries with severe security vulnerabilities. Results: The
protocol allows three or more people to categorise any number of libraries. The
categorisation produced is functional-oriented and language-agnostic. The
Java/Maven dataset demonstration resulted in a majority of Internet-oriented
libraries, coherent with its selection by severe vulnerabilities. To allow
replication and updates, we make the dataset and the protocol individual steps
available as open data. Conclusions: Libraries categorisation by functional
purpose is feasible with our protocol, which produced the fingerprint of a
256-libraries Java dataset. While this was labour intensive, humans excel in
the required inference tasks, so full automation of the process is not
envisioned. However, results can provide the ground truth needed for machine
learning in large-scale cross-ecosystem empirical studies.
- Abstract(参考訳): コンテキスト: テキスト処理やネットワーキングなど、さまざまな機能カテゴリのソフトウェアは、セキュリティやアップデートといったメトリクスの面で異なるプロファイルを持っています。
javaとpythonライブラリの比較に人気を使うことは、最も人気のあるソフトウェアのカテゴリがひとつのエコシステムから次のものへと変化するため、歪んだ視点をもたらす可能性がある。
カテゴリ名が同じでない場合、ソフトウェアエコシステム全体でライブラリデータセットを比較するにはどうすればよいのか?
目的:我々は,ライブラリデータセットのクロスエコシステム研究を可能にする機能的目的により,ソフトウェアの言語に依存しない分類を生成する方法を研究する。
これはソフトウェアメトリクスの比較に必要な機能的な指紋情報を提供する。
方法:ソフトウェアエコシステムからライブラリを分類するためのヒューマンガイドプロトコルを設計,実装した。
カテゴリ名はPyPI Topic分類器を反映しているが、プロトコルは汎用的で、あらゆるエコシステムに適用できる。
256のjava/mavenライブラリを厳格なセキュリティ脆弱性で分類することで、これを実証した。
結果: このプロトコルでは、3人以上が任意のライブラリを分類できる。
生成された分類は機能指向で言語に依存しない。
Java/Mavenデータセットのデモンストレーションの結果、インターネット指向のライブラリの大部分は、深刻な脆弱性によって選択された。
レプリケーションと更新を可能にするため、データセットとプロトコルをオープンデータとして利用可能にする。
結論: 機能目的によるライブラリ分類は,256ライブラリのJavaデータセットの指紋を生成するプロトコルで実現可能である。
これは労働集約的であったが、人間は必要な推論タスクに優れており、プロセスの完全な自動化は想定されていない。
しかし、結果は大規模なecoシステム横断実証研究において機械学習に必要な基礎的真実を提供することができる。
関連論文リスト
- Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - Python for Smarter Cities: Comparison of Python libraries for static and
interactive visualisations of large vector data [0.0]
Pythonは簡潔で自然な構文を持ち、コンピュータサイエンスの背景を持たない市町村のスタッフにとって参入障壁は低い。
本研究では,大規模ベクトルデータセットの可視化生成に関して,Pythonエコシステムにおける顕著かつ活発に開発された可視化ライブラリを評価する。
短いリストのライブラリはすべて、小さなデータセットと大きなデータセットの両方のサンプルマップ製品を生成することができた。
論文 参考訳(メタデータ) (2022-02-26T10:23:29Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Kernel methods library for pattern analysis and machine learning in
python [0.0]
kernelmethodsライブラリは、ドメインに依存しない方法で、python MLエコシステムにおける重要な空白を埋めます。
このライブラリは、カーネルベースの操作を効率的にするための、よく定義された多くのクラスを提供する。
論文 参考訳(メタデータ) (2020-05-27T16:44:42Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。