論文の概要: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle
- arxiv url: http://arxiv.org/abs/2408.02498v1
- Date: Mon, 5 Aug 2024 14:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:26:57.514711
- Title: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle
- Title(参考訳): Flow with FlorDB: マシンラーニングライフサイクルにおけるインクリメンタルコンテキストメンテナンス
- Authors: Rolando Garcia, Pragya Kallanagoudar, Chithra Anand, Sarah E. Chasins, Joseph M. Hellerstein, Aditya G. Parameswaran,
- Abstract要約: コード、データ、設定、フィードバックを予測モデルに統合するメタデータは様々で複雑です。
FlorDBは、マルチバージョン後見ロギングとインクリメンタルコンテキストメンテナンスによる摩擦を低減する。
デモで示されているように、FlorDBデータセットを使用して、統合されたトレインインファーパイプラインとマネージドフィードバックループを備えたAI/MLアプリケーションを構築することができる。
- 参考スコア(独自算出の注目度): 9.77897073317403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The metadata involved in integrating code, data, configuration, and feedback into predictive models is varied and complex. This complexity is further compounded by the agile development practices favored by data scientists and machine learning engineers. These practices emphasize high experimentation velocity and frequent deployments, which can make it challenging to keep track of all the relevant metadata. The iterative nature of agile methods means that models, datasets, and configurations are constantly evolving. Each experiment might involve tweaks to the data preprocessing steps, changes in model hyperparameters, or updates to the deployment environment. The need for rapid iteration can lead to shortcuts or oversights in documentation and metadata management. Effective metadata management requires robust yet flexible tools and practices that can integrate and organize this information without slowing down the development process. Traditional context management often emphasizes a ``metadata first'' approach, which can introduce significant friction for developers. FlorDB reduces this friction through multiversion hindsight logging and incremental context maintenance, allowing developers to add and refine metadata after the fact. This ``metadata later'' approach enables a more flexible and incremental development process, allowing data scientists to focus on model creation and refinement without the burden of documentation upfront. As shown in a demo, FlorDB can be used to build AI/ML applications with integrated train-infer pipelines and managed feedback loops. Ultimately, the goal of FlorDB is to ensure that critical metadata is maintained accurately and efficiently, even in fast-paced agile workflows.
- Abstract(参考訳): コード、データ、構成、フィードバックを予測モデルに統合するメタデータは様々で複雑です。
この複雑さは、データサイエンティストや機械学習エンジニアが好むアジャイル開発プラクティスによってさらに複雑化されます。
これらのプラクティスは、高い実験速度と頻繁なデプロイメントを強調しており、関連するすべてのメタデータを追跡するのが難しくなります。
アジャイルメソッドの反復的な性質は、モデル、データセット、設定が常に進化していることを意味します。
各実験には、データ前処理ステップの微調整、モデルハイパーパラメータの変更、デプロイメント環境のアップデートが含まれる。
迅速なイテレーションの必要性は、ドキュメントやメタデータ管理のショートカットや監視につながる可能性がある。
効果的なメタデータ管理には堅牢でフレキシブルなツールとプラクティスが必要です。
従来のコンテキスト管理では,‘metadata first’アプローチが強調されることが多い。
FlorDBは、マルチバージョン後向きのロギングとインクリメンタルなコンテキストメンテナンスによって、この摩擦を減らす。
この‘metadata later’アプローチは、より柔軟でインクリメンタルな開発プロセスを可能にし、データサイエンティストは、前もってドキュメントの負担なしに、モデルの作成と改善に集中することができる。
デモで示されているように、FlorDBは、統合トレイン推論パイプラインとマネージドフィードバックループを備えたAI/MLアプリケーションを構築するために使用することができる。
最終的にFlorDBの目標は、迅速なペースのアジャイルワークフローであっても、クリティカルなメタデータが正確かつ効率的にメンテナンスされることを保証することです。
関連論文リスト
- FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Learning to Learn from APIs: Black-Box Data-Free Meta-Learning [95.41441357931397]
データフリーなメタラーニング(DFML)は、トレーニングデータにアクセスせずに事前訓練されたモデルの集合からメタラーニングすることで、新しいタスクの効率的な学習を可能にすることを目的としている。
既存のDFMLの作業は、(i)ホワイトボックスと(ii)小規模事前訓練モデルからしかメタ学習できない。
ブラックボックスAPIの集合から単一のモデルへ,より一般的なメタ知識を伝達するための,バイレベルデータフリーなメタ知識蒸留(BiDf-MKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:00:12Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Exploring the potential of flow-based programming for machine learning
deployment in comparison with service-oriented architectures [8.677012233188968]
理由のひとつは、データ収集と分析に関するアクティビティのために設計されていないインフラストラクチャである、と私たちは論じています。
本稿では,データストリームを用いたフローベースのプログラミングを,ソフトウェアアプリケーション構築に広く使用されるサービス指向アーキテクチャの代替として検討する。
論文 参考訳(メタデータ) (2021-08-09T15:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。