論文の概要: The OCEAN mailing list data set: Network analysis spanning mailing lists
and code repositories
- arxiv url: http://arxiv.org/abs/2204.00603v1
- Date: Fri, 1 Apr 2022 17:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 15:55:59.520691
- Title: The OCEAN mailing list data set: Network analysis spanning mailing lists
and code repositories
- Title(参考訳): OCEANメーリングリストデータセット:メーリングリストとコードリポジトリにまたがるネットワーク分析
- Authors: Melanie Warrick, Samuel F. Rosenblatt, Jean-Gabriel Young, Amanda
Casari, Laurent H\'ebert-Dufresne, James Bagrow
- Abstract要約: 我々は、Pythonコミュニティのメーリングリストを組み合わせて標準化し、1995年から現在までの954,287のメッセージを得た。
これらのデータの有用性を示すために、私たちはCPythonリポジトリに集中し、技術的レイヤとソーシャルレイヤをマージします。
これらのデータがどのようにして、大規模なオープンソースプロジェクトにおける標準的な組織科学の理論をテストする実験室を提供するかについて議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication surrounding the development of an open source project largely
occurs outside the software repository itself. Historically, large communities
often used a collection of mailing lists to discuss the different aspects of
their projects. Multimodal tool use, with software development and
communication happening on different channels, complicates the study of open
source projects as a sociotechnical system. Here, we combine and standardize
mailing lists of the Python community, resulting in 954,287 messages from 1995
to the present. We share all scraping and cleaning code to facilitate
reproduction of this work, as well as smaller datasets for the Golang (122,721
messages), Angular (20,041 messages) and Node.js (12,514 messages) communities.
To showcase the usefulness of these data, we focus on the CPython repository
and merge the technical layer (which GitHub account works on what file and with
whom) with the social layer (messages from unique email addresses) by
identifying 33% of GitHub contributors in the mailing list data. We then
explore correlations between the valence of social messaging and the structure
of the collaboration network. We discuss how these data provide a laboratory to
test theories from standard organizational science in large open source
projects.
- Abstract(参考訳): オープンソースプロジェクトの開発を取り巻くコミュニケーションは、主にソフトウェアリポジトリ自体の外で行われる。
歴史的に、大きなコミュニティは、プロジェクトのさまざまな側面について議論するために、メーリングリストの集まりを使っていた。
開発とコミュニケーションを異なるチャネルで行うマルチモーダルツールの使用は、社会技術システムとしてのオープンソースプロジェクトの研究を複雑にしている。
ここでは、Pythonコミュニティのメーリングリストを組み合わせて標準化し、1995年から現在までの954,287のメッセージを作成します。
Golang(122,721のメッセージ)、Angular(12,041のメッセージ)、Node.js(12,514のメッセージ)コミュニティ用の小さなデータセットも、この作業の再現を容易にするために、すべてのスクラップコードとクリーニングコードを共有しています。
これらのデータの有用性を示すため、メーリングリストデータのGitHubコントリビュータの33%を識別することで、CPythonレポジトリに集中し、技術的レイヤ(GitHubアカウントがどのファイルと誰と共同で動作するか)とソーシャルレイヤ(ユニークなメールアドレスからのメッセージ)をマージします。
次に,ソーシャルメッセージングの価値とコラボレーションネットワークの構造との関係について検討する。
これらのデータがどのようにして、大規模なオープンソースプロジェクトにおける標準的な組織科学の理論をテストする実験室を提供するかについて議論する。
関連論文リスト
- SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - PyTorch Geometric Signed Directed: A Software Package on Graph Neural
Networks for Signed and Directed Graphs [20.832917829426098]
PyGSD (PyTorch Geometric Signed Directed) は、PyGSDのソフトウェアパッケージである。
PyGSDは、使い易いGNNモデル、合成および実世界のデータ、タスク固有の評価指標と損失関数で構成されている。
PyGの拡張ライブラリとして提案されているソフトウェアは、オープンソースリリース、詳細なドキュメント、継続的インテグレーション、ユニットテスト、コードカバレッジチェックでメンテナンスされています。
論文 参考訳(メタデータ) (2022-02-22T10:25:59Z) - LAGOON: An Analysis Tool for Open Source Communities [7.3861897382622015]
LAGOONはオープンソースソフトウェア(OSS)コミュニティのエコシステムを理解するためのオープンソースプラットフォームである。
LAGOONはソースコードリポジトリ、イシュートラッカ、メーリングリスト、ウェブサイトからのコンテンツスクラップなど、いくつかの一般的なソースからアーティファクトを取り込みます。
OSSプロジェクトの完全な社会技術グラフの可視化と探索のためのユーザインターフェースを提供する。
論文 参考訳(メタデータ) (2022-01-26T18:52:11Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - The penumbra of open source: projects outside of centralized platforms
are longer maintained, more academic and more collaborative [0.0]
我々は、集中型プラットフォーム以外のオープンソースプロジェクトリポジトリの、新しくて広範なサンプルを開発しています。
我々のサンプルプロジェクトは、より多くの協力者を持ち、長期間維持され、学術的、科学的な問題に集中する傾向にある。
論文 参考訳(メタデータ) (2021-06-29T17:54:26Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。