論文の概要: DMOps: Data Management Operation and Recipes
- arxiv url: http://arxiv.org/abs/2301.01228v1
- Date: Mon, 2 Jan 2023 09:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:32:20.257304
- Title: DMOps: Data Management Operation and Recipes
- Title(参考訳): DMOps: データ管理の運用と準備
- Authors: Eujeong Choi, Chanjun Park
- Abstract要約: データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
「データ・マネジメント・オペレーション・レシピ」は、業務やドメインに関係なく業界をガイドします。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-centric AI has shed light on the significance of data within the machine
learning (ML) pipeline. Acknowledging its importance, various research and
policies are suggested by academia, industry, and government departments.
Although the capability of utilizing existing data is essential, the capability
to build a dataset has become more important than ever. In consideration of
this trend, we propose a "Data Management Operation and Recipes" that will
guide the industry regardless of the task or domain. In other words, this paper
presents the concept of DMOps derived from real-world experience. By offering a
baseline for building data, we want to help the industry streamline its data
operation optimally.
- Abstract(参考訳): データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
その重要性を認め、学界、産業、政府部門から様々な研究と政策が提案されている。
既存のデータを利用する能力は不可欠だが、データセットを構築する能力はこれまで以上に重要になっている。
この傾向を考慮し、タスクやドメインに関係なく業界を導く「データ管理操作とレシピ」を提案する。
言い換えると、本論文は実世界体験から派生したdmopsの概念を提案する。
データ構築のベースラインを提供することで、私たちは業界がそのデータ運用を最適に合理化したいと考えています。
関連論文リスト
- The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。