論文の概要: FASTR: Reimagining FASTQ via Compact Image-inspired Representation
- arxiv url: http://arxiv.org/abs/2601.17184v1
- Date: Fri, 23 Jan 2026 21:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.395841
- Title: FASTR: Reimagining FASTQ via Compact Image-inspired Representation
- Title(参考訳): FASTR:コンパクトなイメージインスパイアされた表現によるFASTQの再現
- Authors: Adrian Tkachenko, Sepehr Salem, Ayotomiwa Ezekiel Adeniyi, Zulal Bingol, Mohammed Nayeem Uddin, Akshat Prasanna, Alexander Zelikovsky, Serghei Mangul, Can Alkan, Mohammed Alser,
- Abstract要約: FASTRは塩基品質スコアとともにヌクレオチドを1つの8ビット値にエンコードする。
FASTRに汎用圧縮ツールを適用すると、圧縮比は2.47, 3.64, 4.8倍、圧縮速度は2.34, 1.96, 1.75倍、圧縮速度はイルミナ、HiFi、ONTでFASTQよりも速い。
- 参考スコア(独自算出の注目度): 31.51178578425393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: High-throughput sequencing (HTS) enables population-scale genomics but generates massive datasets, creating bottlenecks in storage, transfer, and analysis. FASTQ, the standard format for over two decades, stores one byte per base and one byte per quality score, leading to inefficient I/O, high storage costs, and redundancy. Existing compression tools can mitigate some issues, but often introduce costly decompression or complex dependency issues. Results: We introduce FASTR, a lossless, computation-native successor to FASTQ that encodes each nucleotide together with its base quality score into a single 8-bit value. FASTR reduces file size by at least 2x while remaining fully reversible and directly usable for downstream analyses. Applying general-purpose compression tools on FASTR consistently yields higher compression ratios, 2.47, 3.64, and 4.8x faster compression, and 2.34, 1.96, 1.75x faster decompression than on FASTQ across Illumina, HiFi, and ONT reads. FASTR is machine-learning-ready, allowing reads to be consumed directly as numerical vectors or image-like representations. We provide a highly parallel software ecosystem for FASTQ-FASTR conversion and show that FASTR integrates with existing tools, such as minimap2, with minimal interface changes and no performance overhead. By eliminating decompression costs and reducing data movement, FASTR lays the foundation for scalable genomics analyses and real-time sequencing workflows. Availability and Implementation: https://github.com/ALSER-Lab/FASTR
- Abstract(参考訳): モチベーション: 高スループットシークエンシング(HTS)は人口規模のゲノム解析を可能にするが、大量のデータセットを生成し、ストレージ、転送、分析のボトルネックを生み出す。
20年以上の標準フォーマットであるFASTQは、ベースごとに1バイト、品質スコアごとに1バイトを格納し、非効率なI/O、ストレージコスト、冗長性をもたらす。
既存の圧縮ツールはいくつかの問題を軽減できるが、コストのかかる圧縮や複雑な依存の問題を引き起こすことが多い。
結果: FASTRはFASTQの後継であり, 各ヌクレオチドを基本品質スコアとともに1つの8ビット値にエンコードする。
FASTRはファイルサイズを少なくとも2倍削減するが、完全に可逆であり、ダウンストリーム解析に直接使用することができる。
FASTRに汎用圧縮ツールを適用すると、圧縮比は2.47, 3.64, 4.8倍、圧縮速度は2.34, 1.96, 1.75倍、圧縮速度はイルミナ、HiFi、ONTでFASTQよりも速い。
FASTRは機械学習対応で、数値ベクトルや画像のような表現として直接読み込むことができる。
我々は、FASTQ-FASTR変換のための高度に並列なソフトウェアエコシステムを提供し、FASTRがminimap2のような既存のツールと統合されていることを示す。
圧縮コストの削減とデータ移動の削減により、FASTRはスケーラブルなゲノム解析とリアルタイムシークエンシングワークフローの基礎を築いた。
可用性と実装:https://github.com/ALSER-Lab/FASTR
関連論文リスト
- Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search [35.93578975066986]
Diffusion Transformer (DiT) は、画像生成のための非常にスケーラブルで効果的なバックボーンとして登場した。
混合精度量子化(MPQ)は、サブ4ビット設定へのU-Net量子化の進展において顕著な成功を収めた。
DiT量子化における重要な課題に対処する統合フレームワークであるTreeQを提案する。
論文 参考訳(メタデータ) (2025-12-06T08:59:12Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Split Hierarchical Variational Compression [21.474095984110622]
可変オートエンコーダ(VAE)は、画像データセットの圧縮を行う上で大きな成功を収めている。
SHVCは、ピクセルごとの自己回帰と完全に分解された確率モデルとの一般化を可能にする、効率的な自己回帰的サブピクセル畳み込みを導入している。
論文 参考訳(メタデータ) (2022-04-05T09:13:38Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。