Fugu-MT 論文翻訳(概要): Cross-ecosystem categorization: A manual-curation protocol for the categorization of Java Maven libraries along Python PyPI Topics

論文の概要: Cross-ecosystem categorization: A manual-curation protocol for the categorization of Java Maven libraries along Python PyPI Topics

arxiv url: http://arxiv.org/abs/2403.06300v1
Date: Sun, 10 Mar 2024 20:15:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 21:01:29.716068
Title: Cross-ecosystem categorization: A manual-curation protocol for the categorization of Java Maven libraries along Python PyPI Topics
Title（参考訳）: cross-ecosystem categorization: python pypiトピックによるjava mavenライブラリの分類のための手動キュレーションプロトコル
Authors: Ranindya Paramitha, Yuan Feng, Fabio Massacci, Carlos E. Budde
Abstract要約: 本研究では,機能的目的によってソフトウェアを言語に依存しない分類する手法について検討する。これにより、ソフトウェアメトリクスの比較に必要な機能的な指紋情報が得られる。
参考スコア（独自算出の注目度）: 6.035129972551483
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Context: Software of different functional categories, such as text processing vs. networking, has different profiles in terms of metrics like security and updates. Using popularity to compare e.g. Java vs. Python libraries might give a skewed perspective, as the categories of the most popular software vary from one ecosystem to the next. How can one compare libraries datasets across software ecosystems, when not even the category names are uniform among them? Objective: We study how to generate a language-agnostic categorisation of software by functional purpose, that enables cross-ecosystem studies of libraries datasets. This provides the functional fingerprint information needed for software metrics comparisons. Method: We designed and implemented a human-guided protocol to categorise libraries from software ecosystems. Category names mirror PyPI Topic classifiers, but the protocol is generic and can be applied to any ecosystem. We demonstrate it by categorising 256 Java/Maven libraries with severe security vulnerabilities. Results: The protocol allows three or more people to categorise any number of libraries. The categorisation produced is functional-oriented and language-agnostic. The Java/Maven dataset demonstration resulted in a majority of Internet-oriented libraries, coherent with its selection by severe vulnerabilities. To allow replication and updates, we make the dataset and the protocol individual steps available as open data. Conclusions: Libraries categorisation by functional purpose is feasible with our protocol, which produced the fingerprint of a 256-libraries Java dataset. While this was labour intensive, humans excel in the required inference tasks, so full automation of the process is not envisioned. However, results can provide the ground truth needed for machine learning in large-scale cross-ecosystem empirical studies.
Abstract（参考訳）: コンテキスト: テキスト処理やネットワーキングなど、さまざまな機能カテゴリのソフトウェアは、セキュリティやアップデートといったメトリクスの面で異なるプロファイルを持っています。 javaとpythonライブラリの比較に人気を使うことは、最も人気のあるソフトウェアのカテゴリがひとつのエコシステムから次のものへと変化するため、歪んだ視点をもたらす可能性がある。カテゴリ名が同じでない場合、ソフトウェアエコシステム全体でライブラリデータセットを比較するにはどうすればよいのか? 目的:我々は,ライブラリデータセットのクロスエコシステム研究を可能にする機能的目的により,ソフトウェアの言語に依存しない分類を生成する方法を研究する。これはソフトウェアメトリクスの比較に必要な機能的な指紋情報を提供する。方法:ソフトウェアエコシステムからライブラリを分類するためのヒューマンガイドプロトコルを設計,実装した。カテゴリ名はPyPI Topic分類器を反映しているが、プロトコルは汎用的で、あらゆるエコシステムに適用できる。 256のjava/mavenライブラリを厳格なセキュリティ脆弱性で分類することで、これを実証した。結果: このプロトコルでは、3人以上が任意のライブラリを分類できる。生成された分類は機能指向で言語に依存しない。 Java/Mavenデータセットのデモンストレーションの結果、インターネット指向のライブラリの大部分は、深刻な脆弱性によって選択された。レプリケーションと更新を可能にするため、データセットとプロトコルをオープンデータとして利用可能にする。結論: 機能目的によるライブラリ分類は,256ライブラリのJavaデータセットの指紋を生成するプロトコルで実現可能である。これは労働集約的であったが、人間は必要な推論タスクに優れており、プロセスの完全な自動化は想定されていない。しかし、結果は大規模なecoシステム横断実証研究において機械学習に必要な基礎的真実を提供することができる。

関連論文リスト

SocialED: A Python Library for Social Event Detection [53.928241775629566]
SocialEDは、ソーシャルイベント検出(SED)タスクをサポートするように設計された、包括的なオープンソースのPythonライブラリである。詳細なドキュメンテーションを備えた統一APIを提供し、研究者や実践者がソーシャルメディアにおけるイベント検出の完全なソリューションを提供する。 SocialEDは、グラフ構築やトークン化など、幅広い事前処理技術をサポートし、モデルのトレーニングや予測のための標準化されたインターフェースを含んでいる。
論文参考訳（メタデータ） (2024-12-18T03:37:47Z)
PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。 PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。 PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文参考訳（メタデータ） (2024-12-09T11:00:55Z)
Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文参考訳（メタデータ） (2024-11-18T06:33:40Z)
Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。 $textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文参考訳（メタデータ） (2023-07-31T05:00:35Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
problexity -- an open-source Python library for binary classification problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文参考訳（メタデータ） (2022-07-14T07:32:15Z)
Python for Smarter Cities: Comparison of Python libraries for static and interactive visualisations of large vector data [0.0]
Pythonは簡潔で自然な構文を持ち、コンピュータサイエンスの背景を持たない市町村のスタッフにとって参入障壁は低い。本研究では,大規模ベクトルデータセットの可視化生成に関して,Pythonエコシステムにおける顕著かつ活発に開発された可視化ライブラリを評価する。短いリストのライブラリはすべて、小さなデータセットと大きなデータセットの両方のサンプルマップ製品を生成することができた。
論文参考訳（メタデータ） (2022-02-26T10:23:29Z)
PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。 PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。 PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文参考訳（メタデータ） (2022-01-12T07:32:36Z)
Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文参考訳（メタデータ） (2020-10-26T14:52:42Z)
Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文参考訳（メタデータ） (2020-10-09T16:19:42Z)
Kernel methods library for pattern analysis and machine learning in python [0.0]
kernelmethodsライブラリは、ドメインに依存しない方法で、python MLエコシステムにおける重要な空白を埋めます。このライブラリは、カーネルベースの操作を効率的にするための、よく定義された多くのクラスを提供する。
論文参考訳（メタデータ） (2020-05-27T16:44:42Z)
OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。 OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文参考訳（メタデータ） (2020-01-28T15:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。