論文の概要: Investigating Data Pruning for Pretraining Biological Foundation Models at Scale
- arxiv url: http://arxiv.org/abs/2512.12932v1
- Date: Mon, 15 Dec 2025 02:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.510918
- Title: Investigating Data Pruning for Pretraining Biological Foundation Models at Scale
- Title(参考訳): 大規模生物基盤モデルの事前学習のためのデータ・プルーニングの検討
- Authors: Yifan Wu, Jiyue Jiang, Xichen Ye, Yiqi Wang, Chang Zhou, Yitao Xu, Jiayang Chen, He Hu, Weizhong Zhang, Cheng Jin, Jiao Yuan, Yu Li,
- Abstract要約: 本稿では,生物ドメインに適したポストホックインフルエンス誘導型データ解析フレームワークを提案する。
我々のフレームワークは、極端な刈り取り率99%のランダム選択ベースラインを一貫して上回っている。
これらの結果は、BioFMプリトレーニングの計算コストを大幅に削減するために、インフルエンス誘導型データプルーニングの可能性を示している。
- 参考スコア(独自算出の注目度): 47.09153330837959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological foundation models (BioFMs), pretrained on large-scale biological sequences, have recently shown strong potential in providing meaningful representations for diverse downstream bioinformatics tasks. However, such models often rely on millions to billions of training sequences and billions of parameters, resulting in prohibitive computational costs and significant barriers to reproducibility and accessibility, particularly for academic labs. To address these challenges, we investigate the feasibility of data pruning for BioFM pretraining and propose a post-hoc influence-guided data pruning framework tailored to biological domains. Our approach introduces a subset-based self-influence formulation that enables efficient estimation of sample importance at low computational cost, and builds upon it two simple yet effective selection strategies, namely Top-k Influence (Top I) and Coverage-Centric Influence (CCI). We empirically validate our method on two representative BioFMs, RNA-FM and ESM-C. For RNA, our framework consistently outperforms random selection baselines under an extreme pruning rate of over 99 percent, demonstrating its effectiveness. Furthermore, we show the generalizability of our framework on protein-related tasks using ESM-C. In particular, our coreset even outperforms random subsets that are ten times larger in both RNA and protein settings, revealing substantial redundancy in biological sequence datasets. These findings underscore the potential of influence-guided data pruning to substantially reduce the computational cost of BioFM pretraining, paving the way for more efficient, accessible, and sustainable biological AI research.
- Abstract(参考訳): 生物基盤モデル (BioFMs) は, 大規模生物配列を事前訓練し, 様々な下流生物情報学タスクに有意義な表現を提供する可能性を示した。
しかし、そのようなモデルはしばしば数百万から数十億のトレーニングシーケンスと数十億のパラメータに依存しており、結果として計算コストの禁止と再現性やアクセシビリティの重大な障壁、特に学術実験室ではそうである。
これらの課題に対処するため,バイオFMプリトレーニングのためのデータプルーニングの実現可能性について検討し,生物ドメインに適したポストホックインフルエンス誘導データプルーニングフレームワークを提案する。
提案手法では,低い計算コストで標本重要度を効率的に推定できるサブセットベースの自己影響定式化を導入し,Top-k Influence (Top I) と Coverage-Centric Influence (CCI) という2つの単純かつ効果的な選択戦略を構築した。
本手法はRNA-FMとESM-Cの2つの代表的なバイオFMに対して実験的に検証した。
RNAの場合、我々のフレームワークは極度の刈り取り率99%でランダム選択ベースラインを一貫して上回り、その効果を実証しています。
さらに,ESM-Cを用いたタンパク質関連タスクにおけるフレームワークの一般化可能性を示す。
特に、我々のコアセットはRNAとタンパク質の設定の10倍の大きさのランダムなサブセットよりも優れており、生物学的な配列データセットにかなりの冗長性が示されています。
これらの知見は、BioFMプリトレーニングの計算コストを大幅に削減し、より効率的でアクセス可能で持続可能な生物学的AI研究への道を開くために、インフルエンス誘導データプルーニングの可能性を強調している。
関連論文リスト
- Rep3Net: An Approach Exploiting Multimodal Representation for Molecular Bioactivity Prediction [0.8049701904919515]
初期の薬物発見では、標的タンパク質に対する分子の生物活性予測が重要な役割を果たす。
本稿では,Rep3Netを提案する。Rep3Netは,記述子データだけでなく,空間情報や関係情報も含む統合型ディープラーニングアーキテクチャである。
本モデルにより,ポリ[ADP-リボース]ポリメラーゼ1データセット上での生物活性予測が得られた。
論文 参考訳(メタデータ) (2025-11-29T15:39:48Z) - BioBO: Biology-informed Bayesian Optimization for Perturbation Design [10.086893225706321]
本稿では,生物インフォームドベイズ最適化(Biology-Informed Bayesian Optimization, BioBO)を提案する。
BioBOは、生物学的に根ざした前駆体と、有望な遺伝子に対する探索をバイアスする原則的枠組みによる獲得機能を組み合わせる。
以上の結果から,BioBOはラベリング効率を25~40%向上させ,従来のBOよりも常に優れており,高い性能の摂動を識別する。
論文 参考訳(メタデータ) (2025-09-24T10:50:06Z) - RanAT4BIE: Random Adversarial Training for Biomedical Information Extraction [3.350193187012561]
ランダム逆行訓練(RAT)は、生体情報抽出タスクにうまく適用された新しいフレームワークである。
RATは、ランダムサンプリング機構と敵の訓練原理を統合し、強化されたモデル一般化とロバスト性を達成する。
結果は、生物医学的な自然言語処理のための変換フレームワークとしてのRATの可能性を強調した。
論文 参考訳(メタデータ) (2025-09-14T09:40:00Z) - CellPainTR: Generalizable Representation Learning for Cross-Dataset Cell Painting Analysis [51.56484100374058]
本稿では,細胞形態の基本的な表現を学習するためのトランスフォーマーベースのアーキテクチャであるCellPainTRを紹介する。
私たちの研究は、画像ベースのプロファイリングのための真の基盤モデルを作成するための重要なステップであり、より信頼性が高くスケーラブルなクロススタディ生物学的分析を可能にします。
論文 参考訳(メタデータ) (2025-09-02T03:30:07Z) - METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring [13.988975730867107]
メタゲノミクス基礎モデルMETAGENE-1を, 種々のメタゲノミクスDNAおよびRNA配列の新規コーパスでプレトレーニングした。
このデータセットは、深層メタゲノミクスシークエンシング法を用いて処理およびシーケンスされたヒト排水サンプルの大規模なコレクションから得られたものである。
我々は、このモデルをメダゲノミクスデータセット上で事前トレーニングし、事前トレーニングの過程における損失、システムメトリクス、トレーニング安定性の詳細を提供する。
論文 参考訳(メタデータ) (2025-01-03T18:44:43Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。