論文の概要: Efficient Data Selection for Training Genomic Perturbation Models
- arxiv url: http://arxiv.org/abs/2503.14571v5
- Date: Wed, 06 Aug 2025 07:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.324064
- Title: Efficient Data Selection for Training Genomic Perturbation Models
- Title(参考訳): ゲノム摂動モデルの訓練のための効率的なデータ選択
- Authors: George Panagopoulos, Johannes F. Lutzeyer, Sofiane Ennadir, Jun Pang,
- Abstract要約: グラフニューラルネットワークに基づく遺伝子摂動モデルを用いて、遺伝子摂動の結果を予測する。
アクティブラーニングは、しばしばこれらのモデルをトレーニングするために使われ、ウェットラブ実験とモデル更新の交互に行われる。
本研究では,遺伝子摂動を1ショットで,モデル無しで選択するグラフベースのデータフィルタリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.362190332905524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic studies, including CRISPR-based Perturb-seq analyses, face a vast hypothesis space, while gene perturbations remain costly and time-consuming. Gene perturbation models based on graph neural networks are trained to predict the outcomes of gene perturbations to facilitate such experiments. Due to the cost of genomic experiments, active learning is often employed to train these models, alternating between wet-lab experiments and model updates. However, the operational constraints of the wet-lab and the iterative nature of active learning significantly increase the total training time. Furthermore, the inherent sensitivity to model initialization can lead to markedly different sets of gene perturbations across runs, which undermines the reproducibility, interpretability, and reusability of the method. To this end, we propose a graph-based data filtering method that, unlike active learning, selects the gene perturbations in one shot and in a model-free manner. The method optimizes a criterion that maximizes the supervision signal from the graph neural network to enhance generalization. The criterion is defined over the input graph and is optimized with submodular maximization. We compare it empirically to active learning, and the results demonstrate that despite yielding months of acceleration, it also improves the stability of the selected perturbation experiments while achieving comparable test error.
- Abstract(参考訳): CRISPRベースのPerturb-seq分析を含むゲノム研究は膨大な仮説空間に直面し、遺伝子摂動は高価で時間を要する。
グラフニューラルネットワークに基づく遺伝子摂動モデルを用いて、遺伝子摂動の結果を予測し、そのような実験を促進する。
ゲノム実験のコストのため、アクティブラーニングはしばしばこれらのモデルをトレーニングするために使われ、ウェットラブ実験とモデル更新の交互に行われる。
しかし、ウェットラブの運用上の制約とアクティブラーニングの反復性は、トレーニング時間を大幅に増加させる。
さらに、モデル初期化に対する本質的な感受性は、実行中の遺伝子の摂動を著しく異なるものにし、再現性、解釈可能性、再利用性を損なう可能性がある。
そこで本研究では,アクティブラーニングとは違って,1ショットで,モデルフリーで遺伝子摂動を選択するグラフベースのデータフィルタリング手法を提案する。
本手法は,グラフニューラルネットワークからの監視信号を最大化して一般化を促進する基準を最適化する。
基準は入力グラフ上で定義され、部分モジュラー最大化で最適化される。
実験的に能動学習と比較した結果,何ヶ月もの加速が得られても,選択した摂動実験の安定性を向上し,比較試験誤差を達成できることが示唆された。
関連論文リスト
- Modeling Gene Expression Distributional Shifts for Unseen Genetic Perturbations [44.619690829431214]
遺伝的摂動に伴う遺伝子発現の分布応答を予測するニューラルネットワークを訓練する。
本モデルでは, 摂動を条件とした遺伝子レベルのヒストグラムを予測し, 高次統計値の取得において, 基準値よりも優れていた。
論文 参考訳(メタデータ) (2025-07-01T06:04:28Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - BLEND: Behavior-guided Neural Population Dynamics Modeling via Privileged Knowledge Distillation [6.3559178227943764]
本稿では,特権的知識蒸留による行動誘導型ニューラル人口動態モデリングフレームワークBLENDを提案する。
特権情報として行動を考えることにより、行動観察(私的特徴)と神経活動(正規特徴)の両方を入力として扱う教師モデルを訓練する。
学生モデルは神経活動のみを用いて蒸留される。
論文 参考訳(メタデータ) (2024-10-02T12:45:59Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Genetic Imitation Learning by Reward Extrapolation [6.340280403330784]
我々は,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。
遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することで、データ効率を向上させる。
我々はAtariドメインとMujocoドメインの両方でGenILをテストし、その結果、以前の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-01-03T14:12:28Z) - Active Learning for Single Neuron Models with Lipschitz Non-Linearities [35.119032992898774]
単一ニューロンモデルにおける能動的学習の問題点を考察する。
リプシッツ非線型性を持つ単一ニューロンモデルに対して、強い証明可能な近似保証が得られることを示す。
論文 参考訳(メタデータ) (2022-10-24T20:55:21Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Deep neural networks with controlled variable selection for the
identification of putative causal genetic variants [0.43012765978447565]
本稿では,遺伝的研究のための可変選択を制御した,アンサンブルを用いた解釈可能なニューラルネットワークモデルを提案する。
本手法の利点は,(1)遺伝的変異の非線形効果を柔軟にモデル化し,統計力を向上させること,(2)誤発見率を厳格に制御するために入力層内の複数のノックオフ,(3)重みパラメータやアクティベーションの数を大幅に減らし,計算効率を向上させること,を含む。
論文 参考訳(メタデータ) (2021-09-29T20:57:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。