論文の概要: scDataset: Scalable Data Loading for Deep Learning on Large-Scale Single-Cell Omics
- arxiv url: http://arxiv.org/abs/2506.01883v1
- Date: Mon, 02 Jun 2025 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.621833
- Title: scDataset: Scalable Data Loading for Deep Learning on Large-Scale Single-Cell Omics
- Title(参考訳): scDataset: 大規模シングルセルOmic上でのディープラーニングのためのスケーラブルなデータローディング
- Authors: Davide D'Ascenzo, Sebastiano Cultrera di Montesano,
- Abstract要約: scDatasetは、フォーマット変換を必要とせずに、1つ以上のAnnDataファイルで直接動作する。
scDatasetは、AnnLoaderよりも48$times$のスピードアップ、HuggingFaceデータセットより27$times$のスピードアップ、シングルコア設定でBioNeMoよりも18$times$のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern single-cell datasets now comprise hundreds of millions of cells, presenting significant challenges for training deep learning models that require shuffled, memory-efficient data loading. While the AnnData format is the community standard for storing single-cell datasets, existing data loading solutions for AnnData are often inadequate: some require loading all data into memory, others convert to dense formats that increase storage demands, and many are hampered by slow random disk access. We present scDataset, a PyTorch IterableDataset that operates directly on one or more AnnData files without the need for format conversion. The core innovation is a combination of block sampling and batched fetching, which together balance randomness and I/O efficiency. On the Tahoe 100M dataset, scDataset achieves up to a 48$\times$ speed-up over AnnLoader, a 27$\times$ speed-up over HuggingFace Datasets, and an 18$\times$ speed-up over BioNeMo in single-core settings. These advances democratize large-scale single-cell model training for the broader research community.
- Abstract(参考訳): 現代のシングルセルデータセットは現在、数億のセルで構成されており、シャッフルされたメモリ効率の高いデータローディングを必要とするディープラーニングモデルをトレーニングする上で重要な課題を提示している。
AnnDataフォーマットは単一セルデータセットを格納するためのコミュニティ標準であるが、既存のAnnDataのデータ読み込みソリューションはしばしば不十分である。
scDatasetはPyTorch IterableDatasetで、フォーマット変換を必要とせずに、1つ以上のAnnDataファイルを直接操作します。
中心となるイノベーションは、ブロックサンプリングとバッチフェッチの組み合わせであり、ランダム性とI/O効率のバランスをとる。
Tahoe 100Mデータセットでは、ScDatasetはAnnLoaderの48$\times$スピードアップ、HuggingFace Datasetsの27$\times$スピードアップ、シングルコア設定でBioNeMoの18$\times$スピードアップを達成する。
これらの進歩は、より広範な研究コミュニティのために大規模なシングルセルモデルトレーニングを民主化する。
関連論文リスト
- Large-Scale Data Selection for Instruction Tuning [20.45142921023614]
命令チューニングのためのデータ選択アプローチは、通常、小さなプールから小さなデータセットを選択することでテストされる。
しかし、一般的なインストラクションチューニングモデルでは、数十万から数百万のサンプルをトレーニングし、さらに大きなデータプールからサンプリングすることが多い。
この設定では,最近提案された多くの手法はランダムな選択に欠けており,さらに大きなデータプールへのアクセスを与えられると,性能が低下することさえ示している。
表現に基づくデータ選択の変種(RDS+)は、テストされたすべての設定において、より複雑なメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-03T18:37:26Z) - GMem: A Modular Approach for Ultra-Efficient Generative Models [6.515635754669283]
GMem:超効率的な生成モデルのためのモジュラーアプローチを紹介する。
我々のアプローチであるGMemは、メモリ容量をモデルから切り離し、別のイミュータブルメモリセットとして実装する。
ImageNetの256倍256ドルの解像度で、GMemはSiTに比べて50倍のトレーニングスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-11T21:23:24Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval [1.099532646524593]
本稿では、圧縮ベクトルをSSDインデックスにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。
本手法は,10 MB のメモリ使用率を数十億のデータセットによるクエリ検索で実現し,遅延の致命的な劣化を伴わない。
論文 参考訳(メタデータ) (2024-04-09T04:20:27Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。