論文の概要: Cross-Granularity Representations for Biological Sequences: Insights from ESM and BiGCARP
- arxiv url: http://arxiv.org/abs/2603.20825v1
- Date: Sat, 21 Mar 2026 13:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.104026
- Title: Cross-Granularity Representations for Biological Sequences: Insights from ESM and BiGCARP
- Title(参考訳): 生物配列のクロスグラニュリティ表現:ESMとBiGCARPからの考察
- Authors: Hanlin Xiao, Rainer Breitling, Eriko Takano, Mauricio A. Álvarez,
- Abstract要約: 生合成遺伝子クラスターのPfamドメインレベルのモデルであるBiGCARPと、アミノ酸レベルのタンパク質言語モデルであるESMのケーススタディにより、モデルからの粒度間の知識の統合について検討する。
本研究は,生物基盤モデルの性能向上と解釈可能性向上に期待できる戦略として,粒界間の統合に注目した。
- 参考スコア(独自算出の注目度): 6.039609675618599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in general-purpose foundation models have stimulated the development of large biological sequence models. While natural language shows symbolic granularity (characters, words, sentences), biological sequences exhibit hierarchical granularity whose levels (nucleotides, amino acids, protein domains, genes) further encode biologically functional information. In this paper, we investigate the integration of cross-granularity knowledge from models through a case study of BiGCARP, a Pfam domain-level model for biosynthetic gene clusters, and ESM, an amino acid-level protein language model. Using representation analysis tools and a set of probe tasks, we first explain why a straightforward cross-model embedding initialization fails to improve downstream performance in BiGCARP, and show that deeper-layer embeddings capture a more contextual and faithful representation of the model's learned knowledge. Furthermore, we demonstrate that representations at different granularities encode complementary biological knowledge, and that combining them yields measurable performance gains in intermediate-level prediction tasks. Our findings highlight cross-granularity integration as a promising strategy for improving both the performance and interpretability of biological foundation models.
- Abstract(参考訳): 汎用基盤モデルの最近の進歩は、大きな生物学的配列モデルの開発を刺激している。
自然言語は記号的な粒度(文字、単語、文)を示すが、生物学的配列は、そのレベル(ヌクレオチド、アミノ酸、タンパク質ドメイン、遺伝子)が生物学的に機能する情報をコードする階層的な粒度を示す。
本稿では,生物合成遺伝子クラスターのPfamドメインレベルのモデルであるBiGCARPとアミノ酸レベルのタンパク質言語モデルであるESMを事例として,モデルからの粒界知識の統合について検討する。
表現解析ツールとプローブタスクのセットを用いて、BiGCARPにおいて単純なクロスモデル埋め込み初期化が下流性能を改善することができない理由を最初に説明し、より深い層埋め込みがモデルの学習知識のより文脈的かつ忠実な表現を捉えていることを示す。
さらに、異なる粒度の表現が相補的な生物学的知識を符号化し、それらを組み合わせることで中間レベルの予測タスクにおいて測定可能な性能向上が得られることを示す。
本研究は,生物基盤モデルの性能と解釈性を改善するための将来的な戦略として,粒界間の統合に注目した。
関連論文リスト
- Advancing Cancer Prognosis with Hierarchical Fusion of Genomic, Proteomic and Pathology Imaging Data from a Systems Biology Perspective [28.350872729693847]
システム生物学の観点から,遺伝子からタンパク質への生物学的進化をモデル化する階層的融合フレームワークであるHFGPIを提案する。
具体的には、遺伝子やタンパク質の生物学的情報表現を構築するために、アイデンティティ埋め込みと表現プロファイルを統合する分子エンコーディング戦略である、分子トケナイザーを紹介する。
次に、構造タンパク質アライメントにグラフ認識のクロスアテンションを用いて、遺伝子保存制御関係を明示的にモデル化し、遺伝子制御タンパク質表現を生成する遺伝子制御タンパク質融合(GRPF)を開発した。
論文 参考訳(メタデータ) (2026-03-14T06:30:51Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - A Biologically Interpretable Two-stage Deep Neural Network (BIT-DNN) For
Vegetation Recognition From Hyperspectral Imagery [3.708283803668841]
本研究では,生物学的に解釈可能な2段階深層ニューラルネットワーク(BIT-DNN)を用いた新しい解釈可能な深層学習モデルを提案する。
提案モデルは、最先端の5つのディープラーニングモデルと比較されている。
論文 参考訳(メタデータ) (2020-04-19T15:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。