論文の概要: DMOps: Data Management Operation and Recipes
- arxiv url: http://arxiv.org/abs/2301.01228v1
- Date: Mon, 2 Jan 2023 09:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-04 15:32:20.257304
- Title: DMOps: Data Management Operation and Recipes
- Title(参考訳): DMOps: データ管理の運用と準備
- Authors: Eujeong Choi, Chanjun Park
- Abstract要約: データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
「データ・マネジメント・オペレーション・レシピ」は、業務やドメインに関係なく業界をガイドします。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-centric AI has shed light on the significance of data within the machine
learning (ML) pipeline. Acknowledging its importance, various research and
policies are suggested by academia, industry, and government departments.
Although the capability of utilizing existing data is essential, the capability
to build a dataset has become more important than ever. In consideration of
this trend, we propose a "Data Management Operation and Recipes" that will
guide the industry regardless of the task or domain. In other words, this paper
presents the concept of DMOps derived from real-world experience. By offering a
baseline for building data, we want to help the industry streamline its data
operation optimally.
- Abstract(参考訳): データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
その重要性を認め、学界、産業、政府部門から様々な研究と政策が提案されている。
既存のデータを利用する能力は不可欠だが、データセットを構築する能力はこれまで以上に重要になっている。
この傾向を考慮し、タスクやドメインに関係なく業界を導く「データ管理操作とレシピ」を提案する。
言い換えると、本論文は実世界体験から派生したdmopsの概念を提案する。
データ構築のベースラインを提供することで、私たちは業界がそのデータ運用を最適に合理化したいと考えています。
関連論文リスト
- Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (2026-02-09T18:47:51Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。
本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。
我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文 参考訳(メタデータ) (2025-10-29T17:01:55Z) - More Data or Better Data? A Critical Analysis of Data Selection and Synthesis for Mathematical Reasoning [47.13636836547429]
我々は,オープンソースのデータセットと数学的推論のためのデータ合成手法を包括的に分析する。
以上の結果から,より解釈可能な形式のデータ構築や,より強力なモデルからの抽出は,単にデータボリュームをスケールアップするよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2025-10-08T16:07:26Z) - The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。