論文の概要: Recipe for Discovery: A Framework for Systematic Open Source Project Identification
- arxiv url: http://arxiv.org/abs/2506.18359v1
- Date: Mon, 23 Jun 2025 07:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.89394
- Title: Recipe for Discovery: A Framework for Systematic Open Source Project Identification
- Title(参考訳): Recipe for Discovery: オープンソースプロジェクトの同定のためのフレームワーク
- Authors: Juanita Gomez, Emily Lovell, Stephanie Lieggi, Alvaro A. Cardenas, James Davis,
- Abstract要約: オープンソースソフトウェア開発は、特に大学や研究所のような機関内では、しばしば分散化され、追跡が困難である。
本稿では,分散システムにまたがるオープンソースプロジェクトの発見・分類・分析の課題について論じる。
カリフォルニア大学 (UC) を事例として, 機関関連リポジトリを体系的に同定する枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.301066200227303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open source software development, particularly within institutions such as universities and research laboratories, is often decentralized and difficult to track. Despite producing highly impactful tools in science, these efforts often go unrecognized due to a lack of visibility and institutional awareness. This paper addresses the challenge of discovering, classifying, and analyzing open source software projects developed across distributed institutional systems. We present a framework for systematically identifying institutional affiliated repositories, using the University of California (UC) system as a case study. Using GitHub's REST API, we build a pipeline to discover relevant repositories and extract meaningful metadata. We then propose and evaluate multiple classification strategies, including both traditional machine learning models and large language models (LLMs), to distinguish affiliated projects from unrelated repositories and generate accurate insights into the academic open source landscape. Our results show that the framework is effective at scale, discovering over 52,000 repositories and predicting institutional affiliation with high accuracy.
- Abstract(参考訳): オープンソースソフトウェア開発は、特に大学や研究所のような機関内では、しばしば分散化され、追跡が困難である。
科学において非常に影響力のあるツールを生み出すが、視認性や制度的な認識の欠如により、これらの取り組みは認識されないことが多い。
本稿では,分散システムにまたがるオープンソースプロジェクトの発見・分類・分析の課題について論じる。
カリフォルニア大学 (UC) を事例として, 機関関連リポジトリを体系的に同定する枠組みを提案する。
GitHubのREST APIを使用して、関連するリポジトリを発見し、意味のあるメタデータを抽出するパイプラインを構築します。
次に、従来の機械学習モデルと大規模言語モデル(LLM)の両方を含む複数の分類戦略を提案して評価し、関連するプロジェクトと無関係なリポジトリを区別し、学術的オープンソースランドスケープに対する正確な洞察を生成する。
提案手法は, 52,000以上のリポジトリを発見し, 機関間の連携を高精度に予測し, 大規模化に有効であることを示す。
関連論文リスト
- A Systematic Mapping Study on Contract-based Software Design for Dependable Systems [0.45880283710344055]
コントラクトベースの設計(CbD)は、契約を伴うコードやアーキテクチャコンポーネントのアノテーションを可能にする、ソフトウェア設計のための貴重な方法論です。
ソフトウェアコンポーネントの振る舞いとそのインターフェースとインタラクションを概説するルールを確立する。
CbDの意義と理論的背景にもかかわらず、信頼できるソフトウェアシステムのための総合的な体系的マッピング研究が必要である。
論文 参考訳(メタデータ) (2025-05-12T13:25:29Z) - Open Source Software Lifecycle Classification: Developing Wrangling Techniques for Complex Sociotechnical Systems [0.0]
本稿では、オープンソースソフトウェアや他の組織エコシステムを分類する以前の試みについてレビューする。
オープンソースプロジェクトを分類するための、多種多様で時には相反する目的と、これらの競合する関心が、オープンソースソフトウェアプロジェクトや企業がどのように機能するかを包括的に理解する上で、私たちの進歩を妨げているかを調べます。
論文 参考訳(メタデータ) (2025-04-23T12:37:53Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Development of an open education resources (OER) system: a comparative analysis and implementation approach [0.0]
このプロジェクトには、LMS(Learning Management Systems)のトップ5の比較分析が含まれている。
主な目的は、非商業ユーザのための教育資源の共有を容易にするWebベースのシステムを作ることである。
論文 参考訳(メタデータ) (2024-05-26T05:58:45Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Private Knowledge Sharing in Distributed Learning: A Survey [50.51431815732716]
人工知能の台頭は多くの産業に革命をもたらし、社会の働き方を変えた。
異なるエンティティが分散または所有する学習プロセスにおいて、情報を活用することが不可欠である。
現代のデータ駆動サービスは、分散知識エンティティを結果に統合するために開発されています。
論文 参考訳(メタデータ) (2024-02-08T07:18:23Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Bayesian Embeddings for Few-Shot Open World Recognition [60.39866770427436]
埋め込みベースの数ショット学習アルゴリズムをオープンワールド認識設定に拡張する。
当社のフレームワークは,MiniImageNetとTieredImageNetによる数ショット学習データセットのオープンワールド拡張をベンチマークする。
論文 参考訳(メタデータ) (2021-07-29T00:38:47Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。