論文の概要: Boidae: Your Personal Mining Platform
- arxiv url: http://arxiv.org/abs/2401.11092v1
- Date: Sat, 20 Jan 2024 02:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:07:37.396451
- Title: Boidae: Your Personal Mining Platform
- Title(参考訳): Boidae: 個人用マイニングプラットフォーム
- Authors: Brian Sigurdson and Samuel W. Flint and Robert Dyer
- Abstract要約: ユーザによって制御され、カスタマイズされたBoaインスタレーションのファミリーであるBoidaeを紹介します。
特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットを作成することができる。
Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mining software repositories is a useful technique for researchers and
practitioners to see what software developers actually do when developing
software. Tools like Boa provide users with the ability to easily mine these
open-source software repositories at a very large scale, with datasets
containing hundreds of thousands of projects. The trade-off is that users must
use the provided infrastructure, query language, runtime, and datasets and this
might not fit all analysis needs. In this work, we present Boidae: a family of
Boa installations controlled and customized by users. Boidae uses automation
tools such as Ansible and Docker to facilitate the deployment of a customized
Boa installation. In particular, Boidae allows the creation of custom datasets
generated from any set of Git repositories, with helper scripts to aid in
finding and cloning repositories from GitHub and SourceForge. In this paper, we
briefly describe the architecture of Boidae and how researchers can utilize the
infrastructure to generate custom datasets. Boidae's scripts and all
infrastructure it builds upon are open-sourced. A video demonstration of
Boidae's installation and extension is available at https://go.unl.edu/boidae.
- Abstract(参考訳): ソフトウェアレポジトリをマイニングすることは、研究者や実践者がソフトウェアを開発するときにソフトウェア開発者が実際に何をするかを確認するのに役立つテクニックである。
boaのようなツールは、これらのオープンソースソフトウェアリポジトリを非常に大規模にマイニングし、何十万ものプロジェクトを含むデータセットを提供する。
トレードオフは、ユーザが提供されたインフラストラクチャ、クエリ言語、ランタイム、データセットを使用する必要があることだ。
本稿では,ユーザが管理し,カスタマイズしたBoaインスタレーションのファミリーであるBoidaeを紹介する。
boidaeはansibleやdockerなどの自動化ツールを使用して、カスタマイズされたboaインストールのデプロイを容易にする。
特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットの作成を可能にし、GitHubとSourceForgeからのリポジトリの発見とクローンを支援するヘルパースクリプトを提供する。
本稿では,Boidaeのアーキテクチャと,そのインフラを利用してカスタムデータセットを生成する方法について概説する。
Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
Boidaeのインストールと拡張のデモビデオはhttps://go.unl.edu/boidaeで公開されている。
関連論文リスト
- Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Chronicles of CI/CD: A Deep Dive into its Usage Over Time [0.5705775078773656]
本稿では、GitHubリポジトリを分析し、開発者がCI/CDに使用する技術を分析する。
最先端のCI/CDテクノロジのリストを使用して、GitHub検索APIを使用して、それぞれのテクノロジを使用してリポジトリを見つけます。
当社の時代におけるCI/CDテクノロジの使用状況の概要に加えて,過去12年間に何が起こったのかについても紹介する。
論文 参考訳(メタデータ) (2024-02-27T15:20:11Z) - Testing GitHub projects on custom resources using unprivileged
Kubernetes runners [1.137903861863692]
GitHubはソフトウェアプロジェクトをホスティングするための人気のあるリポジトリだ。
ネイティブなGitHub Actionsにより、ソフトウェア開発者が新しいコミットを検証するのが容易になり、新しいコードが大きなバグを導入しないという自信を持つことができる。
無償で利用可能なテスト環境は、いくつかの一般的な設定に限られるが、カスタムのAction Runnerで拡張できる。
論文 参考訳(メタデータ) (2023-05-17T16:31:41Z) - NVIDIA FLARE: Federated Learning from Simulation to Real-World [11.490933081543787]
私たちはNVIDIA FLAREをオープンソース開発キット(SDK)として開発しました。
SDKには最先端のFLアルゴリズムとフェデレートされた機械学習アプローチのためのソリューションが含まれている。
論文 参考訳(メタデータ) (2022-10-24T14:30:50Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Repro: An Open-Source Library for Improving the Reproducibility and
Usability of Publicly Available Research Code [74.28810048824519]
Reproは、研究コードのユーザビリティ向上を目的とした、オープンソースのライブラリである。
Dockerコンテナ内で研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。
論文 参考訳(メタデータ) (2022-04-29T01:54:54Z) - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge
Base Population [95.0099875111663]
DeepKEは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。
DeepKEを使えば、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて構造化されていないデータから情報を抽出できる。
論文 参考訳(メタデータ) (2022-01-10T13:29:05Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。