論文の概要: ZnTrack -- Data as Code
- arxiv url: http://arxiv.org/abs/2401.10603v1
- Date: Fri, 19 Jan 2024 10:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:21:20.186594
- Title: ZnTrack -- Data as Code
- Title(参考訳): ZnTrack -- コードとしてのデータ
- Authors: Fabian Zills, Moritz Sch\"afer, Samuel Tovey, Johannes K\"astner and
Christian Holm
- Abstract要約: 我々はPython駆動のデータバージョニングツールであるTrackを紹介した。
トラッカーは確立したバージョン管理システム上に構築され、パラメータを追跡するためのユーザフレンドリで使いやすいインターフェースを提供する。
この機能から、大規模なデータセットを単純なPythonスクリプトに減らすことで、Data as Codeという概念が生まれます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade has seen tremendous breakthroughs in computation and there is
no indication that this will slow any time soon. Machine learning, large-scale
computing resources, and increased industry focus have resulted in rising
investments in computer-driven solutions for data management, simulations, and
model generation. However, with this growth in computation has come an even
larger expansion of data and with it, complexity in data storage, sharing, and
tracking. In this work, we introduce ZnTrack, a Python-driven data versioning
tool. ZnTrack builds upon established version control systems to provide a
user-friendly and easy-to-use interface for tracking parameters in experiments,
designing workflows, and storing and sharing data. From this ability to reduce
large datasets to a simple Python script emerges the concept of Data as Code, a
core component of the work presented here and an undoubtedly important concept
as the age of computation continues to evolve. ZnTrack offers an open-source,
FAIR data compatible Python package to enable users to harness these concepts
of the future.
- Abstract(参考訳): 過去10年間、計算の飛躍的なブレークスルーを経験しており、これがすぐに遅くなる兆候はない。
機械学習、大規模コンピューティングリソース、産業への注目が高まり、データ管理、シミュレーション、モデル生成のためのコンピュータ駆動ソリューションへの投資が増加した。
しかし、この計算の増大により、データの拡張はさらに大きくなり、データストレージ、共有、追跡の複雑さが増している。
この作業では、Python駆動のデータバージョニングツールであるZnTrackを紹介します。
zntrackは確立されたバージョン管理システム上に構築されており、実験におけるパラメータの追跡、ワークフローの設計、データの保存と共有のためのユーザフレンドリーで使いやすいインターフェースを提供する。
この大きなデータセットを単純なpythonスクリプトに還元する能力から、データ・アズ・コード(data as code)という概念が生まれました。
ZnTrackはオープンソースでFAIRデータ互換のPythonパッケージを提供する。
関連論文リスト
- Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - The MIT Supercloud Dataset [3.375826083518709]
我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
論文 参考訳(メタデータ) (2021-08-04T13:06:17Z) - DIETERpy: a Python framework for The Dispatch and Investment Evaluation
Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。
システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。
我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文 参考訳(メタデータ) (2020-10-02T09:27:33Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。