論文の概要: Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows
- arxiv url: http://arxiv.org/abs/2511.15977v1
- Date: Thu, 20 Nov 2025 02:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.427493
- Title: Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows
- Title(参考訳): 精密医療ゲノムワークフローのための効率的な染色体並列化
- Authors: Daniel Mas Montserrat, Ray Verma, Míriam Barrabés, Francisco M. de la Vega, Carlos D. Bustamante, Alexander G. Ioannidis,
- Abstract要約: 精密医療に用いられる大規模なゲノムデータセットは、サンプル毎に数十ギガバイトに及ぶデータセットを処理することができる。
単純な静的リソース割り当てメソッドは、染色体単位のRAM要求における可変性を扱うのに苦労する。
染色体レベルのバイオインフォマティクスの適応的でRAM効率の良い並列化のための複数のメカニズムを提案する。
- 参考スコア(独自算出の注目度): 39.445312819357206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale genomic workflows used in precision medicine can process datasets spanning tens to hundreds of gigabytes per sample, leading to high memory spikes, intensive disk I/O, and task failures due to out-of-memory errors. Simple static resource allocation methods struggle to handle the variability in per-chromosome RAM demands, resulting in poor resource utilization and long runtimes. In this work, we propose multiple mechanisms for adaptive, RAM-efficient parallelization of chromosome-level bioinformatics workflows. First, we develop a symbolic regression model that estimates per-chromosome memory consumption for a given task and introduces an interpolating bias to conservatively minimize over-allocation. Second, we present a dynamic scheduler that adaptively predicts RAM usage with a polynomial regression model, treating task packing as a Knapsack problem to optimally batch jobs based on predicted memory requirements. Additionally, we present a static scheduler that optimizes chromosome processing order to minimize peak memory while preserving throughput. Our proposed methods, evaluated on simulations and real-world genomic pipelines, provide new mechanisms to reduce memory overruns and balance load across threads. We thereby achieve faster end-to-end execution, showcasing the potential to optimize large-scale genomic workflows.
- Abstract(参考訳): 精密医療で使用される大規模なゲノムワークフローは、サンプルあたり数十から数百ギガバイトのデータセットを処理することができ、高いメモリスパイク、集中ディスクI/O、メモリ外エラーによるタスク障害につながる。
単純な静的リソース割り当てメソッドは、クロック単位のRAM要求の変動に対処するのに苦労し、リソース利用の低さと長いランタイムをもたらす。
本研究では,染色体レベルのバイオインフォマティクスワークフローの適応的,RAM効率の並列化のための複数のメカニズムを提案する。
まず,各タスクにおける染色体単位のメモリ消費を推定し,過割当を最小化する補間バイアスを導入するシンボリック回帰モデルを提案する。
第2に,メモリ要求の予測に基づき,メモリ使用量を適応的に予測し,タスクパッキングをKnapsack問題として扱い,ジョブをバッチ化する動的スケジューラを提案する。
さらに、スループットを保ちながらピークメモリを最小限に抑えるため、染色体処理順序を最適化する静的スケジューラを提案する。
提案手法はシミュレーションと実世界のゲノムパイプラインを用いて評価され,メモリオーバーランを低減し,スレッド間の負荷のバランスをとるための新しいメカニズムを提供する。
これにより、より高速なエンドツーエンド実行を実現し、大規模なゲノムワークフローを最適化する可能性を示す。
関連論文リスト
- OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文 参考訳(メタデータ) (2025-10-06T01:06:33Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Actually Sparse Variational Gaussian Processes [20.71289963037696]
コンパクトに支持されたB-スプライン基底関数の集合にGPを投影することによって構築されたドメイン間変分GPの新しいクラスを提案する。
これにより、高速変動空間現象を数万の誘導変数で非常に効率的にモデル化することができる。
論文 参考訳(メタデータ) (2023-04-11T09:38:58Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。