論文の概要: Beyond Conditional Computation: Retrieval-Augmented Genomic Foundation Models with Gengram
- arxiv url: http://arxiv.org/abs/2601.22203v1
- Date: Thu, 29 Jan 2026 17:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:14.998139
- Title: Beyond Conditional Computation: Retrieval-Augmented Genomic Foundation Models with Gengram
- Title(参考訳): 条件計算を超えて: Gengramによる検索拡張ゲノム基盤モデル
- Authors: Huinan Xu, Xuyang Feng, Junhong Chen, Junchen Liu, Kaiwen Deng, Kai Ding, Shengning Long, Jiaxue Shuai, Zhaorong Li, Shiping Liu, Guirong Xue, Zhan Xiao,
- Abstract要約: Gengramは条件付きメモリモジュールで、マルチベースモチーフの明示的で高効率なルックアッププリミティブを導入している。
最先端のゲノム基盤モデルのバックボーンに統合されている。
構造化モチーフメモリをモデリングプリミティブとして確立することにより、Gengramは同時に経験的性能と機械的解釈可能性を高める。
- 参考スコア(独自算出の注目度): 7.122805911264195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current genomic foundation models (GFMs) rely on extensive neural computation to implicitly approximate conserved biological motifs from single-nucleotide inputs. We propose Gengram, a conditional memory module that introduces an explicit and highly efficient lookup primitive for multi-base motifs via a genomic-specific hashing scheme, establishing genomic "syntax". Integrated into the backbone of state-of-the-art GFMs, Gengram achieves substantial gains (up to 14%) across several functional genomics tasks. The module demonstrates robust architectural generalization, while further inspection of Gengram's latent space reveals the emergence of meaningful representations that align closely with fundamental biological knowledge. By establishing structured motif memory as a modeling primitive, Gengram simultaneously boosts empirical performance and mechanistic interpretability, providing a scalable and biology-aligned pathway for the next generation of GFMs. The code is available at https://github.com/zhejianglab/Genos, and the model checkpoint is available at https://huggingface.co/ZhejiangLab/Gengram.
- Abstract(参考訳): 現在のゲノム基盤モデル(GFM)は、単一のヌクレオチド入力から保存された生物学的モチーフを暗黙的に近似するために、広範なニューラルネットワークに依存している。
我々は、ゲノミクス固有のハッシュ方式を用いて、マルチベースモチーフに対して明示的で高効率なルックアッププリミティブを導入し、ゲノム「シンタクス」を確立する条件記憶モジュールであるGengramを提案する。
最先端のGFMのバックボーンに統合されたGengramは、いくつかの機能ゲノミクスタスクにおいて、相当なゲノミクス(最大14%)を達成する。
モジュールは堅牢なアーキテクチャの一般化を示し、一方、ゲングラムの潜在空間のさらなる検査は、基本的な生物学的知識と密接に一致した意味のある表現の出現を示す。
構造化モチーフメモリをモデリングプリミティブとして確立することにより、Gengramは経験的性能と機械的解釈性を同時に向上させ、次世代のGFMに対してスケーラブルで生物学的に整合した経路を提供する。
コードはhttps://github.com/zhejianglab/Genosで、モデルチェックポイントはhttps://huggingface.co/ZhejiangLab/Gengramで入手できる。
関連論文リスト
- Gene regulatory network inference algorithm based on spectral signed directed graph convolution [11.166270329149205]
我々は,GRNを符号付き有向グラフとして明示的にモデル化し,磁気符号付きラプラシアン畳み込みを用いる新しいフレームワークであるMSGRNLinkを提案する。
膀胱がんのケーススタディでは、MSGRNLinkはベンチマークモデルよりも既知のエッジとエッジの兆候を予測し、その生物学的関連性をさらに検証した。
論文 参考訳(メタデータ) (2025-12-12T00:54:53Z) - GraphTreeGen: Subtree-Centric Approach to Efficient and Supervised Graph Generation [6.138671548064356]
GraphTreeGen(GTG)は、効率的な正確なコネクトーム合成のためのサブツリー中心の生成フレームワークである。
GTGはそれぞれのコネクトームをエントロピー誘導のkホップ木に分解し、情報的局所構造を捉える。
モジュラー設計により、超解像とクロスモダリティ合成を接続できる。
論文 参考訳(メタデータ) (2025-08-13T11:02:38Z) - Scalable Graph Generative Modeling via Substructure Sequences [50.32639806800683]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。
G$2$PMはグラフインスタンス(ノード、エッジ、グラフ全体)をサブ構造のシーケンスとして表現する。
それは、一般化可能かつ伝達可能な表現を学ぶために、シーケンスに関する生成的事前学習を採用する。
論文 参考訳(メタデータ) (2025-05-22T02:16:34Z) - OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking [21.177773831820673]
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
論文 参考訳(メタデータ) (2025-05-20T14:16:25Z) - DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units [18.113659670915474]
ゲノムモデリングは、伝統的に遺伝子配列を言語として扱い、その構造的モチーフと言語単位や組織原理に類似した長距離依存を反映している。
遺伝子配列の様々な粒度から学習するための改良されたゲノム表現フレームワークであるDNAZENを提案する。
トランスフォーマーベースのG-gramエンコーダも提案され、一致したG-gramを入力して表現を計算し、基本単位のエンコーダに統合する。
論文 参考訳(メタデータ) (2025-05-04T18:02:28Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - Infinitely Wide Graph Convolutional Networks: Semi-supervised Learning
via Gaussian Processes [144.6048446370369]
グラフ畳み込みニューラルネットワーク(GCN)は近年,グラフに基づく半教師付き半教師付き分類において有望な結果を示した。
グラフに基づく半教師付き学習のためのGCN(GPGC)を用いたGP回帰モデルを提案する。
GPGCを評価するための広範囲な実験を行い、他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-26T10:02:32Z) - Embedding Graph Auto-Encoder for Graph Clustering [90.8576971748142]
グラフ自動エンコーダ(GAE)モデルは、半教師付きグラフ畳み込みネットワーク(GCN)に基づく
我々は、グラフクラスタリングのための特定のGAEベースのモデルを設計し、その理論、すなわち、埋め込みグラフオートエンコーダ(EGAE)と整合する。
EGAEは1つのエンコーダと2つのデコーダで構成される。
論文 参考訳(メタデータ) (2020-02-20T09:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。