論文の概要: A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI
- arxiv url: http://arxiv.org/abs/2405.04333v1
- Date: Tue, 7 May 2024 14:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:50:50.399387
- Title: A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI
- Title(参考訳): オープンデータの第4波 : オープンデータと生成AIのためのシナリオのスペクトルを探る
- Authors: Hannah Chafetz, Sampriti Saxena, Stefaan G. Verhulst,
- Abstract要約: 生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。
この白書は、オープンデータと生成AIの関係を解き放ち、新しい第4波のオープンデータの可能性を探究するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since late 2022, generative AI has taken the world by storm, with widespread use of tools including ChatGPT, Gemini, and Claude. Generative AI and large language model (LLM) applications are transforming how individuals find and access data and knowledge. However, the intricate relationship between open data and generative AI, and the vast potential it holds for driving innovation in this field remain underexplored areas. This white paper seeks to unpack the relationship between open data and generative AI and explore possible components of a new Fourth Wave of Open Data: Is open data becoming AI ready? Is open data moving towards a data commons approach? Is generative AI making open data more conversational? Will generative AI improve open data quality and provenance? Towards this end, we provide a new Spectrum of Scenarios framework. This framework outlines a range of scenarios in which open data and generative AI could intersect and what is required from a data quality and provenance perspective to make open data ready for those specific scenarios. These scenarios include: pertaining, adaptation, inference and insight generation, data augmentation, and open-ended exploration. Through this process, we found that in order for data holders to embrace generative AI to improve open data access and develop greater insights from open data, they first must make progress around five key areas: enhance transparency and documentation, uphold quality and integrity, promote interoperability and standards, improve accessibility and useability, and address ethical considerations.
- Abstract(参考訳): 2022年後半から、生成的AIはChatGPT、Gemini、Claudeといったツールを幅広く使用して、世界を嵐に晒してきた。
生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。
しかし、オープンデータと生成AIの複雑な関係と、この分野のイノベーションを推進するための大きな可能性を秘めている領域は、まだ未解決のままだ。
このホワイトペーパーは、オープンデータと生成AIの関係を解き放ち、新しい第4波Open Dataのコンポーネントを探究しようとしている。
オープンデータは、データコモンズアプローチに向かっているのだろうか?
生成AIはオープンデータをより会話的か?
生成AIはオープンデータの品質と証明を改善するか?
この目的に向けて、私たちは新しいSpectrum of Scenariosフレームワークを提供しています。
このフレームワークは、オープンデータと生成AIが交差するさまざまなシナリオと、それらの特定のシナリオにオープンデータを準備するためにデータ品質と証明の観点から何が必要なのかを概説する。
これらのシナリオには、関連性、適応性、推論と洞察の生成、データ拡張、オープンな調査が含まれる。
このプロセスを通じて、データ保有者が生成AIを採用してオープンデータアクセスを改善し、オープンデータからの洞察を深めるためには、まず、透明性とドキュメンテーションの強化、品質と整合性の向上、相互運用性と標準の促進、アクセシビリティと使用性の向上、倫理的な考慮事項への対処という、5つの重要な領域について前進する必要があります。
関連論文リスト
- Generative AI like ChatGPT in Blockchain Federated Learning: use cases, opportunities and future [4.497001527881303]
本研究は、フェデレーション学習における生成AIの潜在的な統合について検討する。
GAN(generative adversarial Network)とVAE(variantal autoencoder)
合成データの生成は、限られたデータ可用性に関連する課題に、フェデレートされた学習を支援する。
論文 参考訳(メタデータ) (2024-07-25T19:43:49Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Data Engineering for Everyone [1.2585165426919136]
データエンジニアリングは機械学習(ML)における最速成長分野の1つである
MLは、データエンジニアの個々のチームが簡単に生成できる以上のデータを必要とします。
この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。
論文 参考訳(メタデータ) (2021-02-23T01:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。