論文の概要: Open Data on GitHub: Unlocking the Potential of AI
- arxiv url: http://arxiv.org/abs/2306.06191v1
- Date: Fri, 9 Jun 2023 18:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:30:05.491902
- Title: Open Data on GitHub: Unlocking the Potential of AI
- Title(参考訳): GitHubのオープンデータ - AIの可能性を解き放つ
- Authors: Anthony Cintron Roman, Kevin Xu, Arfon Smith, Jehu Torres Vega, Caleb
Robinson, Juan M Lavista Ferres
- Abstract要約: GitHubは、コラボレーションソフトウェア開発のための世界最大のプラットフォームであり、1億人以上のユーザーがいる。
この研究は、GitHub上のオープンデータの可能性を強調し、AI研究を加速する方法を実証する。
- 参考スコア(独自算出の注目度): 2.3324945410076685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GitHub is the world's largest platform for collaborative software
development, with over 100 million users. GitHub is also used extensively for
open data collaboration, hosting more than 800 million open data files,
totaling 142 terabytes of data. This study highlights the potential of open
data on GitHub and demonstrates how it can accelerate AI research. We analyze
the existing landscape of open data on GitHub and the patterns of how users
share datasets. Our findings show that GitHub is one of the largest hosts of
open data in the world and has experienced an accelerated growth of open data
assets over the past four years. By examining the open data landscape on
GitHub, we aim to empower users and organizations to leverage existing open
datasets and improve their discoverability -- ultimately contributing to the
ongoing AI revolution to help address complex societal issues. We release the
three datasets that we have collected to support this analysis as open datasets
at https://github.com/github/open-data-on-github.
- Abstract(参考訳): GitHubは、コラボレーションソフトウェア開発のための世界最大のプラットフォームであり、1億人以上のユーザーがいる。
GitHubは8億以上のオープンデータファイルをホストし、合計142テラバイトのデータを収集するオープンデータコラボレーションにも広く利用されている。
この研究は、GitHub上のオープンデータの可能性を強調し、AI研究を加速する方法を実証する。
GitHub上のオープンデータの既存の状況と、ユーザがデータセットを共有する方法のパターンを分析します。
私たちの調査によると、GitHubは世界最大のオープンデータホストの1つであり、過去4年間でオープンデータ資産の急速な成長を経験した。
GitHub上のオープンデータランドスケープを調べることで、ユーザや組織が既存のオープンデータセットを活用して、発見可能性を向上させることを目指しています。
私たちは、この分析をサポートするために収集した3つのデータセットを、https://github.com/github/open-data-on-githubでオープンデータセットとしてリリースします。
関連論文リスト
- SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI [0.0]
生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。
この白書は、オープンデータと生成AIの関係を解き放ち、新しい第4波のオープンデータの可能性を探究するものである。
論文 参考訳(メタデータ) (2024-05-07T14:01:33Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - The OCEAN mailing list data set: Network analysis spanning mailing lists
and code repositories [0.0]
我々は、Pythonコミュニティのメーリングリストを組み合わせて標準化し、1995年から現在までの954,287のメッセージを得た。
これらのデータの有用性を示すために、私たちはCPythonリポジトリに集中し、技術的レイヤとソーシャルレイヤをマージします。
これらのデータがどのようにして、大規模なオープンソースプロジェクトにおける標準的な組織科学の理論をテストする実験室を提供するかについて議論する。
論文 参考訳(メタデータ) (2022-04-01T17:50:15Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic
Full Waveform Inversion [16.117689670474142]
フルウェーブフォーム・インバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。
データ駆動型FWI手法の最近の成功は、地球物理学のコミュニティにサービスを提供するためのオープンデータセットの需要が急速に増加した結果である。
大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを提案する。
論文 参考訳(メタデータ) (2021-11-04T15:03:40Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - The penumbra of open source: projects outside of centralized platforms
are longer maintained, more academic and more collaborative [0.0]
我々は、集中型プラットフォーム以外のオープンソースプロジェクトリポジトリの、新しくて広範なサンプルを開発しています。
我々のサンプルプロジェクトは、より多くの協力者を持ち、長期間維持され、学術的、科学的な問題に集中する傾向にある。
論文 参考訳(メタデータ) (2021-06-29T17:54:26Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。