論文の概要: DataCI: A Platform for Data-Centric AI on Streaming Data
- arxiv url: http://arxiv.org/abs/2306.15538v1
- Date: Tue, 27 Jun 2023 15:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 13:02:25.614336
- Title: DataCI: A Platform for Data-Centric AI on Streaming Data
- Title(参考訳): DataCI: データストリーミングのためのデータ中心AIプラットフォーム
- Authors: Huaizheng Zhang, Yizheng Huang, Yuanming Li
- Abstract要約: 動的ストリーミングデータ設定において、データ中心のAIに特化して設計された、包括的なオープンソースプラットフォームであるDataCIを紹介します。
DataCIは、1)シームレスなストリーミングデータセット管理のためのリッチなAPIを備えたインフラストラクチャ、2)データ中心のパイプライン開発とストリーミングシナリオの評価、3)よりインタラクティブなユーザエクスペリエンスを実現するための直感的なグラフィカルインターフェースを提供する。
- 参考スコア(独自算出の注目度): 4.387001621824192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DataCI, a comprehensive open-source platform designed
specifically for data-centric AI in dynamic streaming data settings. DataCI
provides 1) an infrastructure with rich APIs for seamless streaming dataset
management, data-centric pipeline development and evaluation on streaming
scenarios, 2) an carefully designed versioning control function to track the
pipeline lineage, and 3) an intuitive graphical interface for a better
interactive user experience. Preliminary studies and demonstrations attest to
the easy-to-use and effectiveness of DataCI, highlighting its potential to
revolutionize the practice of data-centric AI in streaming data contexts.
- Abstract(参考訳): 動的ストリーミングデータ設定におけるデータ中心aiに特化した,包括的なオープンソースプラットフォームであるdataciを紹介する。
dataciが提供する
1)シームレスなストリーミングデータセット管理,データ中心パイプライン開発,ストリーミングシナリオの評価のためのリッチapiを備えたインフラストラクチャ
2)パイプライン系統を追跡するための注意深く設計されたバージョニング制御関数
3) インタラクティブなユーザエクスペリエンスを改善するための直感的なグラフィカルインターフェース。
データCIの使いやすさと有効性を証明する予備的な研究とデモは、ストリーミングデータコンテキストにおけるデータ中心AIの実践に革命をもたらす可能性を強調している。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - DMOps: Data Management Operation and Recipes [2.28438857884398]
データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
我々は,NLP製品のデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。
論文 参考訳(メタデータ) (2023-01-02T09:46:53Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI [19.358073575300004]
ブラックボックスモデルを用いたデータセットの基本分布特性と意味特性に対処するデータ中心型手法を提案する。
データ中心AIコンペティションにおいて、提供されたデータセットのみで84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成する。
論文 参考訳(メタデータ) (2021-12-07T17:22:44Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。