論文の概要: OpenDataLab: Empowering General Artificial Intelligence with Open Datasets
- arxiv url: http://arxiv.org/abs/2407.13773v1
- Date: Tue, 4 Jun 2024 10:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 01:55:24.448586
- Title: OpenDataLab: Empowering General Artificial Intelligence with Open Datasets
- Title(参考訳): OpenDataLab: オープンデータセットによる汎用人工知能の強化
- Authors: Conghui He, Wei Li, Zhenjiang Jin, Chao Xu, Bin Wang, Dahua Lin,
- Abstract要約: 本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
- 参考スコア(独自算出の注目度): 53.22840149601411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of artificial intelligence (AI) hinges on the quality and accessibility of data, yet the current fragmentation and variability of data sources hinder efficient data utilization. The dispersion of data sources and diversity of data formats often lead to inefficiencies in data retrieval and processing, significantly impeding the progress of AI research and applications. To address these challenges, this paper introduces OpenDataLab, a platform designed to bridge the gap between diverse data sources and the need for unified data processing. OpenDataLab integrates a wide range of open-source AI datasets and enhances data acquisition efficiency through intelligent querying and high-speed downloading services. The platform employs a next-generation AI Data Set Description Language (DSDL), which standardizes the representation of multimodal and multi-format data, improving interoperability and reusability. Additionally, OpenDataLab optimizes data processing through tools that complement DSDL. By integrating data with unified data descriptions and smart data toolchains, OpenDataLab can improve data preparation efficiency by 30\%. We anticipate that OpenDataLab will significantly boost artificial general intelligence (AGI) research and facilitate advancements in related AI fields. For more detailed information, please visit the platform's official website: https://opendatalab.com.
- Abstract(参考訳): 人工知能(AI)の進歩は、データの品質とアクセシビリティに依存しているが、現在のデータソースの断片化と可変性は、効率的なデータ利用を妨げる。
データソースの分散とデータフォーマットの多様性は、しばしばデータ検索と処理の非効率性をもたらし、AI研究と応用の進歩を著しく阻害する。
これらの課題に対処するために,多種多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
このプラットフォームは、マルチモーダルデータとマルチフォーマットデータの表現を標準化し、相互運用性と再利用性を向上させる、次世代AIデータセット記述言語(DSDL)を採用している。
さらに、OpenDataLabはDSDLを補完するツールを通じてデータ処理を最適化する。
統一されたデータ記述とスマートデータツールチェーンにデータを統合することで、OpenDataLabはデータ準備効率を30倍改善できる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
詳細については、プラットフォームの公式Webサイト(https://opendatalab.com.com)を参照してほしい。
関連論文リスト
- LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data [50.88106211204689]
人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用できないデータをレンダリングする。
本稿では,AIデータセットの統一標準を提供することにより,データセット処理の簡略化を目的としたフレームワークを紹介する。
DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
論文 参考訳(メタデータ) (2024-05-28T16:07:45Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - METAM: Goal-Oriented Data Discovery [9.73435089036831]
METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
論文 参考訳(メタデータ) (2023-04-18T15:42:25Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - LADA: Look-Ahead Data Acquisition via Augmentation for Active Learning [24.464022706979886]
本稿では,Look-Ahead Data Acquisition by augmentation(LAD)を提案する。
LADAは、1)ラベルなしのデータインスタンスの選択と2)データ拡張によって生成される仮想データインスタンスの両方を考慮する。
LADAの性能は近年の増補ベースラインや買収ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-11-09T05:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。