論文の概要: A Workflow-Oriented Framework for Asynchronous Human-AI Collaboration in Hybrid and Compute-Intensive HPC Environments
- arxiv url: http://arxiv.org/abs/2605.03743v1
- Date: Tue, 05 May 2026 13:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.948482
- Title: A Workflow-Oriented Framework for Asynchronous Human-AI Collaboration in Hybrid and Compute-Intensive HPC Environments
- Title(参考訳): ハイブリッド・計算集約型HPC環境における非同期AI協調のためのワークフロー指向フレームワーク
- Authors: Sergio Mendoza, Cedric Bhihe, Natalia Zamora, David Modesto, Jose Martin Bugallo Batalla, Jesus Gomez Canovas, Rafel Palomo Avellaneda, Miguel Perez Espinosa,
- Abstract要約: 人間の関与は、高度な防衛とセキュリティのコンテキストにおけるAIシステムのトレーニングとデプロイにおいて重要である。
ハイブリッドインフラストラクチャ間の人間とAIのコラボレーションを可能にするワークフローフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human involvement is critical in training and deploying AI systems in high-stakes defence and security contexts. However, real-time interaction is impractical in HPC environments due to compute intensity and resource constraints. We present a workflow framework that enables asynchronous human-AI collaboration across hybrid infrastructures, including HPC clusters, local machines, and cloud platforms. Workflows can pause at defined checkpoints for human input without halting underlying compute jobs, preventing idle resources and enabling non-blocking supervision. The framework supports interaction with SLURM-based scheduling, containerized and native tasks, and is customized for scenarios requiring human judgment and adaptability. We demonstrate its application in model training on systems like MareNostrum 5, highlighting benefits in portability, efficiency, and oversight in operational AI workflows.
- Abstract(参考訳): 人間の関与は、高度な防衛とセキュリティのコンテキストにおけるAIシステムのトレーニングとデプロイにおいて重要である。
しかし、計算強度と資源制約のため、HPC環境でのリアルタイムインタラクションは現実的ではない。
本稿では,HPCクラスタやローカルマシン,クラウドプラットフォームなど,ハイブリッドインフラストラクチャ間の非同期なヒューマンAIコラボレーションを実現するワークフローフレームワークを提案する。
ワークフローは、基礎となる計算ジョブを停止させ、アイドルリソースを防止し、ノンブロッキングの監視を可能にすることなく、人間の入力の所定のチェックポイントで停止することができる。
このフレームワークは、SLURMベースのスケジューリング、コンテナ化およびネイティブタスクとのインタラクションをサポートし、人間の判断と適応性を必要とするシナリオ用にカスタマイズされている。
MareNostrum 5のようなシステムにおけるモデルトレーニングの応用を実証し、オペレーショナルAIワークフローにおけるポータビリティ、効率、監視のメリットを強調した。
関連論文リスト
- MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era [74.42509044145417]
MegaFlowは、エージェント環境ワークロードの効率的なスケジューリング、リソース割り当て、きめ細かいタスク管理を可能にする、大規模な分散オーケストレーションシステムである。
エージェントのトレーニングデプロイメントでは、MegaFlowは、高いシステムの安定性を維持しながら、数万の並行エージェントタスクを編成し、効率的なリソース利用を実現しています。
論文 参考訳(メタデータ) (2026-01-12T13:25:33Z) - Towards Resource-Efficient Compound AI Systems [4.709762596591902]
複合AIシステムは、モデル、レトリバー、外部ツールなどの複数の相互作用コンポーネントを統合する。
現在の実装は、アプリケーションロジックと実行の詳細の密結合によって、非効率なリソース利用に悩まされています。
本稿では、動的スケジューリングとリソース認識意思決定のための宣言型ワークフロープログラミングモデルと適応型ランタイムシステムを提案する。
論文 参考訳(メタデータ) (2025-01-28T02:15:34Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Transforming the Hybrid Cloud for Emerging AI Workloads [82.21522417363666]
このホワイトペーパーでは、AIワークロードの複雑さの増大に対応するために、ハイブリッドクラウドシステムを変革することを想定している。
提案したフレームワークは、エネルギー効率、性能、コスト効率において重要な課題に対処する。
この共同イニシアチブは、ハイブリッドクラウドをセキュアで効率的で持続可能なプラットフォームとして確立することを目的としています。
論文 参考訳(メタデータ) (2024-11-20T11:57:43Z) - OPTIMA: Optimized Policy for Intelligent Multi-Agent Systems Enables Coordination-Aware Autonomous Vehicles [9.41740133451895]
本研究は,協調自動運転タスクのための分散強化学習フレームワークOPTIMAを紹介する。
我々のゴールは、非常に複雑で混み合ったシナリオにおいて、CAVの汎用性と性能を改善することです。
論文 参考訳(メタデータ) (2024-10-09T03:28:45Z) - Asynchronous Execution of Heterogeneous Tasks in ML-driven HPC Workflows [1.376408511310322]
非同期実行は、リソース利用、タスクのスループット、sakepanの削減に不可欠である。
機械学習(ML)駆動ハイパフォーマンスコンピューティングにおける非同期タスク実行の要件と特性について検討する。
私たちの実験は,関連する科学的要因を表現し,サミットで大規模に実施し,非同期実行によるパフォーマンス向上が我々のモデルと一致していることを示す。
論文 参考訳(メタデータ) (2022-08-23T16:25:48Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。