論文の概要: Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows
- arxiv url: http://arxiv.org/abs/2511.15977v1
- Date: Thu, 20 Nov 2025 02:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.427493
- Title: Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows
- Title(参考訳): 精密医療ゲノムワークフローのための効率的な染色体並列化
- Authors: Daniel Mas Montserrat, Ray Verma, Míriam Barrabés, Francisco M. de la Vega, Carlos D. Bustamante, Alexander G. Ioannidis,
- Abstract要約: 精密医療に用いられる大規模なゲノムデータセットは、サンプル毎に数十ギガバイトに及ぶデータセットを処理することができる。
単純な静的リソース割り当てメソッドは、染色体単位のRAM要求における可変性を扱うのに苦労する。
染色体レベルのバイオインフォマティクスの適応的でRAM効率の良い並列化のための複数のメカニズムを提案する。
- 参考スコア(独自算出の注目度): 39.445312819357206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale genomic workflows used in precision medicine can process datasets spanning tens to hundreds of gigabytes per sample, leading to high memory spikes, intensive disk I/O, and task failures due to out-of-memory errors. Simple static resource allocation methods struggle to handle the variability in per-chromosome RAM demands, resulting in poor resource utilization and long runtimes. In this work, we propose multiple mechanisms for adaptive, RAM-efficient parallelization of chromosome-level bioinformatics workflows. First, we develop a symbolic regression model that estimates per-chromosome memory consumption for a given task and introduces an interpolating bias to conservatively minimize over-allocation. Second, we present a dynamic scheduler that adaptively predicts RAM usage with a polynomial regression model, treating task packing as a Knapsack problem to optimally batch jobs based on predicted memory requirements. Additionally, we present a static scheduler that optimizes chromosome processing order to minimize peak memory while preserving throughput. Our proposed methods, evaluated on simulations and real-world genomic pipelines, provide new mechanisms to reduce memory overruns and balance load across threads. We thereby achieve faster end-to-end execution, showcasing the potential to optimize large-scale genomic workflows.
- Abstract(参考訳): 精密医療で使用される大規模なゲノムワークフローは、サンプルあたり数十から数百ギガバイトのデータセットを処理することができ、高いメモリスパイク、集中ディスクI/O、メモリ外エラーによるタスク障害につながる。
単純な静的リソース割り当てメソッドは、クロック単位のRAM要求の変動に対処するのに苦労し、リソース利用の低さと長いランタイムをもたらす。
本研究では,染色体レベルのバイオインフォマティクスワークフローの適応的,RAM効率の並列化のための複数のメカニズムを提案する。
まず,各タスクにおける染色体単位のメモリ消費を推定し,過割当を最小化する補間バイアスを導入するシンボリック回帰モデルを提案する。
第2に,メモリ要求の予測に基づき,メモリ使用量を適応的に予測し,タスクパッキングをKnapsack問題として扱い,ジョブをバッチ化する動的スケジューラを提案する。
さらに、スループットを保ちながらピークメモリを最小限に抑えるため、染色体処理順序を最適化する静的スケジューラを提案する。
提案手法はシミュレーションと実世界のゲノムパイプラインを用いて評価され,メモリオーバーランを低減し,スレッド間の負荷のバランスをとるための新しいメカニズムを提供する。
これにより、より高速なエンドツーエンド実行を実現し、大規模なゲノムワークフローを最適化する可能性を示す。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文 参考訳(メタデータ) (2025-10-06T01:06:33Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Actually Sparse Variational Gaussian Processes [20.71289963037696]
コンパクトに支持されたB-スプライン基底関数の集合にGPを投影することによって構築されたドメイン間変分GPの新しいクラスを提案する。
これにより、高速変動空間現象を数万の誘導変数で非常に効率的にモデル化することができる。
論文 参考訳(メタデータ) (2023-04-11T09:38:58Z) - Reducing Memory Requirements of Quantum Optimal Control [0.0]
GRAPEのような勾配に基づくアルゴリズムは、ストレージの指数的な増加、量子ビットの増加、メモリ要求の線形増加、時間ステップの増加に悩まされる。
我々は、ユニタリ行列の逆が共役変換であるという事実を利用して、GRAPEが必要とする勾配を計算できる非標準自動微分法を開発した。
提案手法は, GRAPEのメモリ要求を大幅に低減し, 妥当な再計算を犠牲にしている。
論文 参考訳(メタデータ) (2022-03-23T20:42:54Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。