論文の概要: annbatch unlocks terabyte-scale training of biological data in anndata
- arxiv url: http://arxiv.org/abs/2604.01949v1
- Date: Thu, 02 Apr 2026 12:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.76974
- Title: annbatch unlocks terabyte-scale training of biological data in anndata
- Title(参考訳): アンバッチは、アンデータにおける生物学的データのテラバイト規模の訓練を解放する
- Authors: Ilan Gold, Felix Fischer, Lucas Arnoldt, F. Alexander Wolf, Fabian J. Theis,
- Abstract要約: Annbatchは、Anndataのネイティブなミニバッチローダで、ディスクバックのデータセットで直接コア外のトレーニングを可能にする。
Annbatchはロードスループットを最大で1桁向上し、トレーニングを数日から数時間短縮する。
- 参考スコア(独自算出の注目度): 5.529420656211161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scale of biological datasets now routinely exceeds system memory, making data access rather than model computation the primary bottleneck in training machine-learning models. This bottleneck is particularly acute in biology, where widely used community data formats must support heterogeneous metadata, sparse and dense assays, and downstream analysis within established computational ecosystems. Here we present annbatch, a mini-batch loader native to anndata that enables out-of-core training directly on disk-backed datasets. Across single-cell transcriptomics, microscopy and whole-genome sequencing benchmarks, annbatch increases loading throughput by up to an order of magnitude and shortens training from days to hours, while remaining fully compatible with the scverse ecosystem. Annbatch establishes a practical data-loading infrastructure for scalable biological AI, allowing increasingly large and diverse datasets to be used without abandoning standard biological data formats. Github: https://github.com/scverse/annbatch
- Abstract(参考訳): 生物学的データセットのスケールは、現在ではシステムメモリを常に超えており、機械学習モデルのトレーニングにおいて、モデル計算よりもデータアクセスが主要なボトルネックになっている。
このボトルネックは特に生物学において急激であり、広く使われているコミュニティデータフォーマットは、不均一なメタデータ、スパースと密度の高いアッセイ、確立された計算生態系内の下流分析をサポートしなければならない。
ここでは、AnndataにネイティブなミニバッチローダであるAnnbatchを紹介します。
シングルセルのトランスクリプトミクス、顕微鏡、全ゲノムシークエンシングベンチマーク全体にわたって、Annbatchはロードスループットを最大で1桁向上し、数日から数時間のトレーニングを短縮すると同時に、スクラムエコシステムとの完全な互換性を維持している。
Annbatchはスケーラブルな生物学的AIのための実用的なデータローディングインフラストラクチャを確立し、標準の生物学的データフォーマットを捨てることなく、ますます大きく多様なデータセットを使用できる。
Github:https://github.com/scverse/annbatch
関連論文リスト
- DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文 参考訳(メタデータ) (2026-02-02T09:10:09Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models [0.0]
生成AI基盤モデルは、構造化された生物学的データを処理するための変換ポテンシャルを提供する。
本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
論文 参考訳(メタデータ) (2025-06-14T23:30:22Z) - Agentomics-ML: Autonomous Machine Learning Experimentation Agent for Genomic and Transcriptomic Data [33.7054351451505]
本稿では,完全自律型エージェントベースシステムであるAgenomics-MLを紹介した。
本稿では,Agenomics-MLが既存のエージェントベースの手法よりも,一般化と成功率の両面で優れていることを示す。
論文 参考訳(メタデータ) (2025-06-05T19:44:38Z) - Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets [53.367212596352324]
脳波信号物理を利用した教師なし手法を提案する。
脳波チャンネルをフィールド、ソースフリーなドメイン適応を用いて固定位置にマッピングする。
提案手法は脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用におけるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-03-07T16:17:33Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。