論文の概要: Provenance Tracking in Large-Scale Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2507.01075v1
- Date: Tue, 01 Jul 2025 14:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.836195
- Title: Provenance Tracking in Large-Scale Machine Learning Systems
- Title(参考訳): 大規模機械学習システムにおけるプロヴァンストラッキング
- Authors: Gabriele Padovani, Valentine Anantharaj, Sandro Fiore,
- Abstract要約: y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。
y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the demand for large scale AI models continues to grow, the optimization of their training to balance computational efficiency, execution time, accuracy and energy consumption represents a critical multidimensional challenge. Achieving this balance requires not only innovative algorithmic techniques and hardware architectures but also comprehensive tools for monitoring, analyzing, and understanding the underlying processes involved in model training and deployment. Provenance data information about the origins, context, and transformations of data and processes has become a key component in this pursuit. By leveraging provenance, researchers and engineers can gain insights into resource usage patterns, identify inefficiencies, and ensure reproducibility and accountability in AI development workflows. For this reason, the question of how distributed resources can be optimally utilized to scale large AI models in an energy efficient manner is a fundamental one. To support this effort, we introduce the yProv4ML library, a tool designed to collect provenance data in JSON format, compliant with the W3C PROV and ProvML standards. yProv4ML focuses on flexibility and extensibility, and enables users to integrate additional data collection tools via plugins. The library is fully integrated with the yProv framework, allowing for higher level pairing in tasks run also through workflow management systems.
- Abstract(参考訳): 大規模AIモデルの需要が拡大するにつれて、計算効率、実行時間、精度、エネルギー消費のバランスをとるためのトレーニングの最適化は、重要な多次元的課題である。
このバランスを達成するには、革新的なアルゴリズム技術やハードウェアアーキテクチャだけでなく、モデルトレーニングとデプロイメントに関わる基盤となるプロセスを監視し、分析し、理解するための包括的なツールも必要です。
この追求において、データとプロセスの起源、コンテキスト、変換に関する情報が重要な要素となっている。
証明を活用することで、研究者とエンジニアは、リソース使用パターンに関する洞察を得、非効率を識別し、AI開発ワークフローにおける再現性と説明責任を保証することができる。
このような理由から,大規模なAIモデルをエネルギー効率よくスケールするために,分散リソースをどのように最適に活用できるかという問題は,基本的な問題である。
この取り組みをサポートするために、W3C PROVとProvML標準に準拠した、JSON形式で証明データを収集するように設計されたツールであるyProv4MLライブラリを紹介した。
yProv4MLは柔軟性と拡張性を重視しており、ユーザーはプラグインを介して追加のデータ収集ツールを統合することができる。
このライブラリはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクのより高いレベルのペアリングを可能にする。
関連論文リスト
- Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.13332839594069593]
大規模言語モデル(LLM)は、スケーラビリティ、効率性、コスト効率性を保証するために、データセンターアーキテクチャを根本的に再考する必要がある。
我々の研究は、FLOPS、帯域幅とキャパシティ、複数のネットワークトポロジ、一般的な並列化/最適化戦略を共同で探求する包括的な協調設計フレームワークを提供する。
私たちの発見は、実用的な洞察と、AIデータセンタを設計するための実践的なロードマップを提供します。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。
エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。
SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文 参考訳(メタデータ) (2025-04-12T07:55:11Z) - Small Vision-Language Models: A Survey on Compact Architectures and Techniques [0.28087862620958753]
小型視覚言語モデル(sVLM)の出現は、マルチモーダルAIにおける重要な進歩である。
この調査は、コンパクトデザインと計算効率の革新を強調するアーキテクチャの分類を提供する。
論文 参考訳(メタデータ) (2025-03-09T16:14:46Z) - Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows [1.4582633500696451]
LangGraphフレームワークは、スケーラビリティ、視覚化、インテリジェントなプロセス最適化を通じて機械学習を強化するように設計されている。
このフレームワークの中核となるのは、Sparkの分散コンピューティング機能を活用する重要なイノベーションであるAgent AIだ。
フレームワークにはLangChainエコシステムを通じて大きな言語モデルも組み込まれており、構造化されていないデータとのインタラクションが強化されている。
論文 参考訳(メタデータ) (2024-12-02T13:41:38Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - PipeSim: Trace-driven Simulation of Large-Scale AI Operations Platforms [4.060731229044571]
大規模AIシステムのためのトレース駆動シミュレーションに基づく実験・分析環境を提案する。
IBMが開発したプロダクショングレードAIプラットフォームの分析データは、包括的なシミュレーションモデルを構築するために使用される。
独立して独立したイベントシミュレーターでモデルを実装し、実験を行うためのツールキットを提供する。
論文 参考訳(メタデータ) (2020-06-22T19:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。