Fugu-MT 論文翻訳(概要): Towards Lightweight Data Integration using Multi-workflow Provenance and Data Observability

論文の概要: Towards Lightweight Data Integration using Multi-workflow Provenance and Data Observability

arxiv url: http://arxiv.org/abs/2308.09004v1
Date: Thu, 17 Aug 2023 14:20:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 16:35:31.349040
Title: Towards Lightweight Data Integration using Multi-workflow Provenance and Data Observability
Title（参考訳）: マルチワークフロープロバンスとデータオブザーバビリティを用いた軽量データ統合を目指して
Authors: Renan Souza, Tyler J. Skluzacek, Sean R. Wilkinson, Maxim Ziatdinov, Rafael Ferreira da Silva
Abstract要約: 統合データ分析は、特に現在のAI時代において、科学的発見において重要な役割を果たす。軽量ランタイム向けマルチワークフロー統合データ分析手法MIDAを提案する。 Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。
参考スコア（独自算出の注目度）: 0.2517763905487249
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern large-scale scientific discovery requires multidisciplinary collaboration across diverse computing facilities, including High Performance Computing (HPC) machines and the Edge-to-Cloud continuum. Integrated data analysis plays a crucial role in scientific discovery, especially in the current AI era, by enabling Responsible AI development, FAIR, Reproducibility, and User Steering. However, the heterogeneous nature of science poses challenges such as dealing with multiple supporting tools, cross-facility environments, and efficient HPC execution. Building on data observability, adapter system design, and provenance, we propose MIDA: an approach for lightweight runtime Multi-workflow Integrated Data Analysis. MIDA defines data observability strategies and adaptability methods for various parallel systems and machine learning tools. With observability, it intercepts the dataflows in the background without requiring instrumentation while integrating domain, provenance, and telemetry data at runtime into a unified database ready for user steering queries. We conduct experiments showing end-to-end multi-workflow analysis integrating data from Dask and MLFlow in a real distributed deep learning use case for materials science that runs on multiple environments with up to 276 GPUs in parallel. We show near-zero overhead running up to 100,000 tasks on 1,680 CPU cores on the Summit supercomputer.
Abstract（参考訳）: 現代の大規模科学的発見は、ハイパフォーマンスコンピューティング(HPC)マシンやエッジ・ツー・クラウド連続体など、様々なコンピューティング施設をまたいだ多分野の協力を必要とする。統合データ分析は、特に現在のAI時代において、レスポンシブルAI開発、FAIR、再現性、ユーザステアリングを可能にすることで、科学的発見において重要な役割を果たす。しかし、科学の異種性は、複数のサポートツール、クロスファクティリティ環境、効率的なHPC実行といった課題を提起する。データオブザーバビリティ、アダプタシステム設計、証明に基づいて、軽量ランタイムのためのマルチワークフロー統合データ分析のためのアプローチMIDAを提案する。 MIDAは、様々な並列システムや機械学習ツールのデータ観測可能性戦略と適応性手法を定義する。可観測性では、実行時にドメイン、プロヴァンス、テレメトリデータを統一データベースに統合しながら、インスツルメンテーションを必要とせずにバックグラウンドでのデータフローをインターセプトする。 DaskとMLFlowのデータを統合したエンドツーエンドのマルチワークフロー分析を,最大276GPUを並列に実行する複数の環境で動作する材料科学のための実分散ディープラーニングユースケースで実施する実験を行った。 Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。

関連論文リスト

DataScribe: An AI-Native, Policy-Aligned Web Platform for Multi-Objective Materials Design and Discovery [1.0713846107735632]
DataScribeは、AIネイティブでクラウドベースの材料発見プラットフォームである。実験データと計算データを機械処理可能な知識グラフで統一する。データインフラストラクチャに直接最適化エンジン、機械学習、パブリックおよびプライベートな科学データへの統一されたアクセスを組み込むことで、DataScribeはあらゆる規模の研究所のための汎用アプリケーション層バックボーンとして機能する。
論文参考訳（メタデータ） (2026-01-12T19:59:39Z)
An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文参考訳（メタデータ） (2025-12-22T15:03:57Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
Provenance Tracking in Large-Scale Machine Learning Systems [0.0]
y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。 y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
論文参考訳（メタデータ） (2025-07-01T14:10:02Z)
Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文参考訳（メタデータ） (2025-06-24T12:42:36Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。 DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文参考訳（メタデータ） (2025-03-10T08:32:33Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Multimodal LLM for Intelligent Transportation Systems [0.0]
本稿では,アプリケーション,機械学習手法,ハードウェア機器の交わりをカプセル化する新しい3次元フレームワークを提案する。複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
論文参考訳（メタデータ） (2024-12-16T11:50:30Z)
Final Report for CHESS: Cloud, High-Performance Computing, and Edge for Science and Security [5.781151161558928]
継続プラットフォームの構築、ワークフロータスクのオーケストレーション、データセットのキュレーションといった方法は、パフォーマンス、エネルギ、セキュリティ、信頼性に関する科学的要件を達成できない。報告では、オープンサイエンスの観点から、CHESSの結果と成功について述べる。
論文参考訳（メタデータ） (2024-10-21T15:16:00Z)
Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文参考訳（メタデータ） (2024-08-01T21:38:09Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文参考訳（メタデータ） (2023-12-04T06:51:46Z)
Multi-Fidelity Active Learning with GFlowNets [65.91555804996203]
本稿では,GFlowNetsをサンプルとして多要素能動学習アルゴリズムを提案する。分子探索タスクの評価は,GFlowNetsを用いた多要素能動学習が,その単要素の予算のごく一部で高い評価の候補を発見できることを示す。
論文参考訳（メタデータ） (2023-06-20T17:43:42Z)
Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文参考訳（メタデータ） (2022-04-29T08:06:05Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処するマルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文参考訳（メタデータ） (2021-10-21T05:38:45Z)
PipeSim: Trace-driven Simulation of Large-Scale AI Operations Platforms [4.060731229044571]
大規模AIシステムのためのトレース駆動シミュレーションに基づく実験・分析環境を提案する。 IBMが開発したプロダクショングレードAIプラットフォームの分析データは、包括的なシミュレーションモデルを構築するために使用される。独立して独立したイベントシミュレーターでモデルを実装し、実験を行うためのツールキットを提供する。
論文参考訳（メタデータ） (2020-06-22T19:55:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。