論文の概要: Fast, memory-efficient genomic interval tokenizers for modern machine learning
- arxiv url: http://arxiv.org/abs/2511.01555v1
- Date: Mon, 03 Nov 2025 13:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.271087
- Title: Fast, memory-efficient genomic interval tokenizers for modern machine learning
- Title(参考訳): 現代の機械学習のための高速でメモリ効率の良いゲノムインターバルトークン化器
- Authors: Nathan J. LeRoy, Donald R. Campbell Jr, Seth Stadick, Oleksandr Khoroshevskyi, Sang-Hoon Park, Ziyang Hu, Nathan C. Sheffield,
- Abstract要約: gtars-tokenizersは、ゲノム間隔を予め定義された宇宙や領域の語彙にマッピングするライブラリである。
gtars-tokenizersは2つの重複メソッド(BITSとAIList)を実装し、モダンなMLフレームワークとシームレスに統合する。
このトークンベースのアプローチは、ゲノミクスと機械学習をブリッジし、さまざまな環境にわたるインターバルデータのスケーラブルな分析をサポートする。
- 参考スコア(独自算出の注目度): 11.571506663357015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Epigenomic datasets from high-throughput sequencing experiments are commonly summarized as genomic intervals. As the volume of this data grows, so does interest in analyzing it through deep learning. However, the heterogeneity of genomic interval data, where each dataset defines its own regions, creates barriers for machine learning methods that require consistent, discrete vocabularies. Methods: We introduce gtars-tokenizers, a high-performance library that maps genomic intervals to a predefined universe or vocabulary of regions, analogous to text tokenization in natural language processing. Built in Rust with bindings for Python, R, CLI, and WebAssembly, gtars-tokenizers implements two overlap methods (BITS and AIList) and integrates seamlessly with modern ML frameworks through Hugging Face-compatible APIs. Results: The gtars-tokenizers package achieves top efficiency for large-scale datasets, while enabling genomic intervals to be processed using standard ML workflows in PyTorch and TensorFlow without ad hoc preprocessing. This token-based approach bridges genomics and machine learning, supporting scalable and standardized analysis of interval data across diverse computational environments. Availability: PyPI and GitHub: https://github.com/databio/gtars.
- Abstract(参考訳): 導入:高スループットシークエンシング実験から得られたエピゲノムデータセットは、一般的にゲノム間隔として要約される。
このデータの量が増えるにつれて、深い学習を通じて分析することへの関心も高まる。
しかし、各データセットが独自の領域を定義するゲノム間隔データの異質性は、一貫した個別の語彙を必要とする機械学習手法の障壁を生み出す。
方法: 自然言語処理におけるテキストトークン化に類似した,ゲノム間隔を予め定義された宇宙や領域の語彙にマッピングする高性能ライブラリであるgtars-tokenizersを導入する。
Python、R、CLI、WebAssemblyのバインディングを備えたRustで構築されたgtars-tokenizersは、2つの重複メソッド(BITSとAIList)を実装し、Hugging Face互換APIを通じてモダンなMLフレームワークとシームレスに統合する。
結果: gtars-tokenizersパッケージは、大規模なデータセットの最高効率を達成すると同時に、PyTorchとTensorFlowの標準的なMLワークフローを使用して、アドホックな前処理なしでゲノムインターバルを処理可能にする。
このトークンベースのアプローチは、ゲノミクスと機械学習をブリッジし、多様な計算環境にわたる間隔データのスケーラブルで標準化された分析をサポートする。
可用性: PyPIとGitHub: https://github.com/databio/gtars。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。
本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。
スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文 参考訳(メタデータ) (2023-09-18T17:49:09Z) - PyPOTS: A Python Toolkit for Machine Learning on Partially-Observed Time Series [20.491714178518155]
PyPOTSは、データマイニングと分析のためのオープンソースのライブラリである。
5つのタスクに分類される多様なアルゴリズムに簡単にアクセスできる。
PyPOTSはPyPI、Anaconda、Dockerで利用できる。
論文 参考訳(メタデータ) (2023-05-30T07:57:05Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and
Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。
このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文 参考訳(メタデータ) (2020-04-06T10:53:57Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。