論文の概要: Open Data on GitHub: Unlocking the Potential of AI
- arxiv url: http://arxiv.org/abs/2306.06191v1
- Date: Fri, 9 Jun 2023 18:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:30:05.491902
- Title: Open Data on GitHub: Unlocking the Potential of AI
- Title(参考訳): GitHubのオープンデータ - AIの可能性を解き放つ
- Authors: Anthony Cintron Roman, Kevin Xu, Arfon Smith, Jehu Torres Vega, Caleb
Robinson, Juan M Lavista Ferres
- Abstract要約: GitHubは、コラボレーションソフトウェア開発のための世界最大のプラットフォームであり、1億人以上のユーザーがいる。
この研究は、GitHub上のオープンデータの可能性を強調し、AI研究を加速する方法を実証する。
- 参考スコア(独自算出の注目度): 2.3324945410076685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GitHub is the world's largest platform for collaborative software
development, with over 100 million users. GitHub is also used extensively for
open data collaboration, hosting more than 800 million open data files,
totaling 142 terabytes of data. This study highlights the potential of open
data on GitHub and demonstrates how it can accelerate AI research. We analyze
the existing landscape of open data on GitHub and the patterns of how users
share datasets. Our findings show that GitHub is one of the largest hosts of
open data in the world and has experienced an accelerated growth of open data
assets over the past four years. By examining the open data landscape on
GitHub, we aim to empower users and organizations to leverage existing open
datasets and improve their discoverability -- ultimately contributing to the
ongoing AI revolution to help address complex societal issues. We release the
three datasets that we have collected to support this analysis as open datasets
at https://github.com/github/open-data-on-github.
- Abstract(参考訳): GitHubは、コラボレーションソフトウェア開発のための世界最大のプラットフォームであり、1億人以上のユーザーがいる。
GitHubは8億以上のオープンデータファイルをホストし、合計142テラバイトのデータを収集するオープンデータコラボレーションにも広く利用されている。
この研究は、GitHub上のオープンデータの可能性を強調し、AI研究を加速する方法を実証する。
GitHub上のオープンデータの既存の状況と、ユーザがデータセットを共有する方法のパターンを分析します。
私たちの調査によると、GitHubは世界最大のオープンデータホストの1つであり、過去4年間でオープンデータ資産の急速な成長を経験した。
GitHub上のオープンデータランドスケープを調べることで、ユーザや組織が既存のオープンデータセットを活用して、発見可能性を向上させることを目指しています。
私たちは、この分析をサポートするために収集した3つのデータセットを、https://github.com/github/open-data-on-githubでオープンデータセットとしてリリースします。
関連論文リスト
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI [0.0]
生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。
この白書は、オープンデータと生成AIの関係を解き放ち、新しい第4波のオープンデータの可能性を探究するものである。
論文 参考訳(メタデータ) (2024-05-07T14:01:33Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - The OCEAN mailing list data set: Network analysis spanning mailing lists
and code repositories [0.0]
我々は、Pythonコミュニティのメーリングリストを組み合わせて標準化し、1995年から現在までの954,287のメッセージを得た。
これらのデータの有用性を示すために、私たちはCPythonリポジトリに集中し、技術的レイヤとソーシャルレイヤをマージします。
これらのデータがどのようにして、大規模なオープンソースプロジェクトにおける標準的な組織科学の理論をテストする実験室を提供するかについて議論する。
論文 参考訳(メタデータ) (2022-04-01T17:50:15Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic
Full Waveform Inversion [16.117689670474142]
フルウェーブフォーム・インバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。
データ駆動型FWI手法の最近の成功は、地球物理学のコミュニティにサービスを提供するためのオープンデータセットの需要が急速に増加した結果である。
大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを提案する。
論文 参考訳(メタデータ) (2021-11-04T15:03:40Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - The penumbra of open source: projects outside of centralized platforms
are longer maintained, more academic and more collaborative [0.0]
我々は、集中型プラットフォーム以外のオープンソースプロジェクトリポジトリの、新しくて広範なサンプルを開発しています。
我々のサンプルプロジェクトは、より多くの協力者を持ち、長期間維持され、学術的、科学的な問題に集中する傾向にある。
論文 参考訳(メタデータ) (2021-06-29T17:54:26Z) - Data Engineering for Everyone [1.2585165426919136]
データエンジニアリングは機械学習(ML)における最速成長分野の1つである
MLは、データエンジニアの個々のチームが簡単に生成できる以上のデータを必要とします。
この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。
論文 参考訳(メタデータ) (2021-02-23T01:24:37Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。