論文の概要: Machine Learning-Driven Predictive Resource Management in Complex Science Workflows
- arxiv url: http://arxiv.org/abs/2509.11512v1
- Date: Mon, 15 Sep 2025 01:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.119522
- Title: Machine Learning-Driven Predictive Resource Management in Complex Science Workflows
- Title(参考訳): 複雑な科学ワークフローにおける機械学習による予測資源管理
- Authors: Tasnuva Chowdhury, Tadashi Maeno, Fatih Furkan Akman, Joseph Boudreau, Sankha Dutta, Shengyu Feng, Adolfy Hoisie, Kuan-Chieh Hsu, Raees Khan, Jaehyung Kim, Ozgur O. Kilic, Scott Klasky, Alexei Klimentov, Tatiana Korchuganova, Verena Ingrid Martinez Outschoorn, Paul Nilsson, David K. Park, Norbert Podhorszki, Yihui Ren, John Rembrandt Steele, Frédéric Suter, Sairam Sri Vatsavai, Torre Wenaus, Wei Yang, Yiming Yang, Shinjae Yoo,
- Abstract要約: 本研究では、包括的なワークフロー管理システムにおける機械学習モデルの新しいパイプラインについて紹介する。
これらのモデルは、重要なリソース要求を予測するために高度な機械学習技術を使用している。
- 参考スコア(独自算出の注目度): 34.67259555158463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimating resource requirements in advance is challenging due to a wide range of analysis scenarios, varying skill levels among community members, and the continuously increasing spectrum of computing options. One practical approach to mitigate these challenges involves initially processing a subset of each step to measure precise resource utilization from actual processing profiles before completing the entire step. While this two-staged approach enables processing on optimal resources for most of the workflow, it has drawbacks such as initial inaccuracies leading to potential failures and suboptimal resource usage, along with overhead from waiting for initial processing completion, which is critical for fast-turnaround analyses. In this context, our study introduces a novel pipeline of machine learning models within a comprehensive workflow management system, the Production and Distributed Analysis (PanDA) system. These models employ advanced machine learning techniques to predict key resource requirements, overcoming challenges posed by limited upfront knowledge of characteristics at each step. Accurate forecasts of resource requirements enable informed and proactive decision-making in workflow management, enhancing the efficiency of handling diverse, complex workflows across heterogeneous resources.
- Abstract(参考訳): 科学実験における大規模なコミュニティの協力活動は、しばしば数千人のグローバルなメンバーで構成されており、探検と発見に対する重要なコミットメントを反映している。
近年、科学実験において、高度で複雑なデータ処理の重要性が高まっている。
データ処理ワークフローは通常、複数の複雑なステップで構成されており、各ステップに対してリソース要求の正確な仕様は、効率的な処理のために最適なリソースを割り当てるのに不可欠である。
さまざまな分析シナリオ、コミュニティメンバ間のスキルレベルの変化、継続的なコンピューティングオプションの帯域拡大など、事前にリソース要件を見積もることは困難である。
これらの課題を軽減するための実践的なアプローチの1つは、まず最初に各ステップのサブセットを処理し、実際の処理プロファイルから正確なリソース使用量を計測してから、ステップ全体を完了させることである。
この2段階のアプローチはワークフローの大部分で最適なリソースの処理を可能にするが、潜在的な失敗につながる初期不正確さや、リソース使用量の最適化といった欠点や、高速なターンアラウンド分析に不可欠な初期処理完了を待つオーバーヘッドがある。
本研究では,包括的なワークフロー管理システムであるProduct and Distributed Analysis(PanDA)システムにおいて,機械学習モデルの新たなパイプラインを導入する。
これらのモデルは、重要なリソース要件を予測するために高度な機械学習技術を使用し、各ステップにおける特性に関する事前知識の制限によって引き起こされる課題を克服する。
リソース要求の正確な予測により、ワークフロー管理のインフォームドおよびプロアクティブな意思決定が可能になり、異種リソースをまたいだ多種多様な複雑なワークフローの処理効率が向上する。
関連論文リスト
- Provenance Tracking in Large-Scale Machine Learning Systems [0.0]
y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。
y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
論文 参考訳(メタデータ) (2025-07-01T14:10:02Z) - Co-Saving: Resource Aware Multi-Agent Collaboration for Software Development [65.94639060883475]
本稿では,リソースを意識したマルチエージェントシステムであるCo-Savingを提案する。
私たちの重要なイノベーションは、"ショートカット"の導入です。
最先端のMAS ChatDevと比較して,トークン使用量の平均50.85%の削減を実現している。
論文 参考訳(メタデータ) (2025-05-28T02:23:53Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey [48.06362354403557]
本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。
トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。
この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:51:44Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [32.774929826684854]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。