論文の概要: Entropy, Disagreement, and the Limits of Foundation Models in Genomics
- arxiv url: http://arxiv.org/abs/2604.04287v1
- Date: Sun, 05 Apr 2026 22:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.024537
- Title: Entropy, Disagreement, and the Limits of Foundation Models in Genomics
- Title(参考訳): ゲノム学における基盤モデルのエントロピー, 分散, 限界
- Authors: Maxime Rochkoulets, Lovro Vrček, Mile Šikić,
- Abstract要約: 我々は、テキストとDNA配列に基づいてモデルのアンサンブルを訓練し、それらの予測、静的埋め込み、経験的フィッシャー情報フローを分析する。
ゲノム配列の高エントロピーは、ほぼ均一な出力分布、モデル間の不一致、不安定な静的埋め込みをもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models in genomics have shown mixed success compared to their counterparts in natural language processing. Yet, the reasons for their limited effectiveness remain poorly understood. In this work, we investigate the role of entropy as a fundamental factor limiting the capacities of such models to learn from their training data and develop foundational capabilities. We train ensembles of models on text and DNA sequences and analyze their predictions, static embeddings, and empirical Fisher information flow. We show that the high entropy of genomic sequences -- from the point of view of unseen token prediction -- leads to near-uniform output distributions, disagreement across models, and unstable static embeddings, even for models that are matched in architecture, training and data. We then demonstrate that models trained on DNA concentrate Fisher information in embedding layers, seemingly failing to exploit inter-token relationships. Our results suggest that self-supervised training from sequences alone may not be applicable to genomic data, calling into question the assumptions underlying current methodologies for training genomic foundation models.
- Abstract(参考訳): ゲノム学の基盤モデルは、自然言語処理のそれと比較すると、様々な成功を収めている。
しかし、その限定的な効果の理由はいまだに理解されていない。
本研究では,これらのモデルの学習能力を制限する基本要因として,エントロピーが果たす役割について検討し,基礎的能力を開発する。
我々は、テキストとDNA配列に基づいてモデルのアンサンブルを訓練し、それらの予測、静的埋め込み、経験的フィッシャー情報フローを分析する。
本研究では,ゲノム配列の高エントロピー(未確認トークン予測の観点から)が,ほぼ均一な出力分布,モデル間の不一致,不安定な静的埋め込みをもたらすことを示す。
次に、DNAで訓練されたモデルが、埋め込み層にフィッシャー情報を集中させることを実証した。
本研究は,ゲノム基盤モデルの学習方法の前提となる前提に疑問を呈し,配列だけでの自己教師型トレーニングはゲノムデータには適用できない可能性が示唆された。
関連論文リスト
- Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Likelihood Based Inference in Fully and Partially Observed Exponential Family Graphical Models with Intractable Normalizing Constants [4.532043501030714]
マルコフ確率場を符号化する確率的グラフィカルモデルは、生成的モデリングの基本的な構成要素である。
本稿では,これらのモデルの全確率に基づく解析が,計算効率のよい方法で実現可能であることを示す。
論文 参考訳(メタデータ) (2024-04-27T02:58:22Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - From Identifiable Causal Representations to Controllable Counterfactual Generation: A Survey on Causal Generative Modeling [17.074858228123706]
基本的な理論、方法論、欠点、データセット、メトリクスに重点を置いています。
フェアネス、プライバシ、アウト・オブ・ディストリビューションの一般化、精密医療、生物科学における因果生成モデルの応用について述べる。
論文 参考訳(メタデータ) (2023-10-17T05:45:32Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Causality and Generalizability: Identifiability and Learning Methods [0.0]
この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な予測方法に関する研究領域に寄与する。
本稿では,データ依存平均二乗予測誤差正規化を用いた機器変数設定における線形・非線形因果関係推定器について述べる。
本稿では,介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-04T13:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。