論文の概要: Efficient Data Selection for Training Genomic Perturbation Models
- arxiv url: http://arxiv.org/abs/2503.14571v6
- Date: Sun, 19 Oct 2025 18:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.248257
- Title: Efficient Data Selection for Training Genomic Perturbation Models
- Title(参考訳): ゲノム摂動モデルの訓練のための効率的なデータ選択
- Authors: George Panagopoulos, Johannes F. Lutzeyer, Sofiane Ennadir, Michalis Vazirgiannis, Jun Pang,
- Abstract要約: グラフニューラルネットワークに基づく遺伝子摂動モデルに着目する。
本研究では,アクティブな学習とは異なり,一ショットでトレーニング摂動を選択するサブセット選択法を提案する。
- 参考スコア(独自算出の注目度): 32.968559353907004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic studies face a vast hypothesis space, while interventions such as gene perturbations remain costly and time-consuming. To accelerate such experiments, gene perturbation models predict the transcriptional outcome of interventions. Since constructing the training set is challenging, active learning is often employed in a "lab-in-the-loop" process. While this strategy makes training more targeted, it is substantially slower, as it fails to exploit the inherent parallelizability of Perturb-seq experiments. Here, we focus on graph neural network-based gene perturbation models and propose a subset selection method that, unlike active learning, selects the training perturbations in one shot. Our method chooses the interventions that maximize the propagation of the supervision signal to the model. The selection criterion is defined over the input knowledge graph and is optimized with submodular maximization, ensuring a near-optimal guarantee. Experimental results across multiple datasets show that, in addition to providing months of acceleration compared to active learning, the method improves the stability of perturbation choices while maintaining competitive predictive accuracy.
- Abstract(参考訳): ゲノム研究は膨大な仮説空間に直面しているが、遺伝子摂動のような介入は高価で時間を要する。
このような実験を加速するために、遺伝子摂動モデルは介入の転写結果を予測する。
トレーニングセットの構築は難しいため、アクティブな学習は"ループ内のラボ"プロセスでしばしば使用される。
この戦略はトレーニングをよりターゲットにしているが、Perturb-seq実験の本質的に並列化できないため、かなり遅い。
本稿では,グラフニューラルネットワークに基づく遺伝子摂動モデルに着目し,アクティブな学習とは異なり,トレーニング摂動を1ショットで選択するサブセット選択法を提案する。
本手法は,モデルへの監視信号の伝搬を最大化する介入を選択する。
選択基準は入力知識グラフ上で定義され、準モジュラ最大化で最適化され、ほぼ最適の保証が保証される。
複数のデータセットにまたがる実験結果は、アクティブラーニングに比較して数ヶ月の加速度を提供することに加えて、競合予測精度を維持しながら摂動選択の安定性を向上させることを示している。
関連論文リスト
- Modeling Gene Expression Distributional Shifts for Unseen Genetic Perturbations [44.619690829431214]
遺伝的摂動に伴う遺伝子発現の分布応答を予測するニューラルネットワークを訓練する。
本モデルでは, 摂動を条件とした遺伝子レベルのヒストグラムを予測し, 高次統計値の取得において, 基準値よりも優れていた。
論文 参考訳(メタデータ) (2025-07-01T06:04:28Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - BLEND: Behavior-guided Neural Population Dynamics Modeling via Privileged Knowledge Distillation [6.3559178227943764]
本稿では,特権的知識蒸留による行動誘導型ニューラル人口動態モデリングフレームワークBLENDを提案する。
特権情報として行動を考えることにより、行動観察(私的特徴)と神経活動(正規特徴)の両方を入力として扱う教師モデルを訓練する。
学生モデルは神経活動のみを用いて蒸留される。
論文 参考訳(メタデータ) (2024-10-02T12:45:59Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Genetic Imitation Learning by Reward Extrapolation [6.340280403330784]
我々は,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。
遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することで、データ効率を向上させる。
我々はAtariドメインとMujocoドメインの両方でGenILをテストし、その結果、以前の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-01-03T14:12:28Z) - Active Learning for Single Neuron Models with Lipschitz Non-Linearities [35.119032992898774]
単一ニューロンモデルにおける能動的学習の問題点を考察する。
リプシッツ非線型性を持つ単一ニューロンモデルに対して、強い証明可能な近似保証が得られることを示す。
論文 参考訳(メタデータ) (2022-10-24T20:55:21Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Deep neural networks with controlled variable selection for the
identification of putative causal genetic variants [0.43012765978447565]
本稿では,遺伝的研究のための可変選択を制御した,アンサンブルを用いた解釈可能なニューラルネットワークモデルを提案する。
本手法の利点は,(1)遺伝的変異の非線形効果を柔軟にモデル化し,統計力を向上させること,(2)誤発見率を厳格に制御するために入力層内の複数のノックオフ,(3)重みパラメータやアクティベーションの数を大幅に減らし,計算効率を向上させること,を含む。
論文 参考訳(メタデータ) (2021-09-29T20:57:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。