論文の概要: Genome-Factory: An Integrated Library for Tuning, Deploying, and Interpreting Genomic Models
- arxiv url: http://arxiv.org/abs/2509.12266v1
- Date: Sat, 13 Sep 2025 03:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.663829
- Title: Genome-Factory: An Integrated Library for Tuning, Deploying, and Interpreting Genomic Models
- Title(参考訳): Genome-Factory:ゲノムモデルをチューニング、デプロイ、解釈するための統合ライブラリ
- Authors: Weimin Wu, Xuefeng Song, Yibo Wen, Qinjie Lin, Zhihan Zhou, Jerry Yao-Chieh Hu, Zhong Wang, Han Liu,
- Abstract要約: Genome-Factoryは、ゲノムモデルをチューニング、デプロイ、解釈するためのPythonライブラリである。
データ収集のために、Genome-Factoryはゲノム配列をダウンロードし、それらを前処理する自動パイプラインを提供する。
推論のために、Genome-Factoryは埋め込み抽出とDNA配列生成の両方を可能にする。
解釈可能性のために、Genome-Factoryはスパースオートエンコーダをベースとした最初のオープンソースバイオインタプリタを導入した。
- 参考スコア(独自算出の注目度): 15.523936567029624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Genome-Factory, an integrated Python library for tuning, deploying, and interpreting genomic models. Our core contribution is to simplify and unify the workflow for genomic model development: data collection, model tuning, inference, benchmarking, and interpretability. For data collection, Genome-Factory offers an automated pipeline to download genomic sequences and preprocess them. It also includes quality control, such as GC content normalization. For model tuning, Genome-Factory supports three approaches: full-parameter, low-rank adaptation, and adapter-based fine-tuning. It is compatible with a wide range of genomic models. For inference, Genome-Factory enables both embedding extraction and DNA sequence generation. For benchmarking, we include two existing benchmarks and provide a flexible interface for users to incorporate additional benchmarks. For interpretability, Genome-Factory introduces the first open-source biological interpreter based on a sparse auto-encoder. This module disentangles embeddings into sparse, near-monosemantic latent units and links them to interpretable genomic features by regressing on external readouts. To improve accessibility, Genome-Factory features both a zero-code command-line interface and a user-friendly web interface. We validate the utility of Genome-Factory across three dimensions: (i) Compatibility with diverse models and fine-tuning methods; (ii) Benchmarking downstream performance using two open-source benchmarks; (iii) Biological interpretation of learned representations with DNABERT-2. These results highlight its end-to-end usability and practical value for real-world genomic analysis.
- Abstract(参考訳): 我々は、ゲノムモデルをチューニング、デプロイ、解釈するためのPythonライブラリであるGenome-Factoryを紹介した。
私たちのコアコントリビューションは、データ収集、モデルチューニング、推論、ベンチマーク、解釈可能性といったゲノムモデル開発のためのワークフローを簡素化し、統一することにあります。
データ収集のために、Genome-Factoryはゲノム配列をダウンロードし、それらを前処理する自動パイプラインを提供する。
また、GCコンテンツの正規化などの品質管理も含んでいる。
モデルチューニングでは、Genome-Factoryはフルパラメータ、低ランク適応、アダプタベースの微調整の3つのアプローチをサポートする。
幅広いゲノムモデルと互換性がある。
推論のために、Genome-Factoryは埋め込み抽出とDNA配列生成の両方を可能にする。
ベンチマークには2つの既存のベンチマークが含まれており、ユーザが追加のベンチマークを組み込むためのフレキシブルなインターフェースを提供しています。
解釈可能性のために、Genome-Factoryはスパースオートエンコーダをベースとした最初のオープンソースバイオインタプリタを導入した。
このモジュールは、埋め込みをスパースでほぼ単調な潜伏単位に切り離し、外部の読み出しに回帰することで解釈可能なゲノム特徴にリンクする。
アクセシビリティを改善するため、Genome-FactoryはゼロコードコマンドラインインターフェースとユーザフレンドリーなWebインターフェースの両方を備えている。
ゲノムファクトリーの有用性を3次元にわたって検証する。
一 多様なモデル及び微調整方法との適合性
(ii)2つのオープンソースベンチマークによる下流性能のベンチマーク
3)DNABERT-2による学習表現の生物学的解釈
これらの結果は、現実世界のゲノム解析におけるエンド・ツー・エンドのユーザビリティと実践的価値を強調している。
関連論文リスト
- Retrieval-augmented reasoning with lean language models [5.615564811138556]
複雑なドメイン固有のクエリを解釈できる検索拡張会話エージェントを開発した。
本システムでは,細調整されたQwen2.5-Instructモデルと高密度レトリバーを統合した。
すべての実装の詳細とコードは、ドメイン間のサポートと適応のために公開されています。
論文 参考訳(メタデータ) (2025-08-15T10:38:15Z) - OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking [21.177773831820673]
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
論文 参考訳(メタデータ) (2025-05-20T14:16:25Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。