論文の概要: Efficient Data Selection for Training Genomic Perturbation Models
- arxiv url: http://arxiv.org/abs/2503.14571v1
- Date: Tue, 18 Mar 2025 12:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:01.266614
- Title: Efficient Data Selection for Training Genomic Perturbation Models
- Title(参考訳): ゲノム摂動モデルの訓練のための効率的なデータ選択
- Authors: George Panagopoulos, Johannes Lutzeyer, Sofiane Ennadir, Michalis Vazirgiannis, Jun Pang,
- Abstract要約: グラフニューラルネットワークに基づく遺伝子発現モデルは、遺伝子摂動の結果を予測するために訓練される。
アクティブな学習方法は、トレーニングセットを構築するのに必要な実験のコストのために、これらのモデルをトレーニングするためにしばしば使用される。
本稿では,遺伝子発現モデルを訓練するためのグラフベースのワンショットデータ選択法を提案する。
- 参考スコア(独自算出の注目度): 20.742124638893795
- License:
- Abstract: Genomic studies, including CRISPR-based PerturbSeq analyses, face a vast hypothesis space, while gene perturbations remain costly and time-consuming. Gene expression models based on graph neural networks are trained to predict the outcomes of gene perturbations to facilitate such experiments. Active learning methods are often employed to train these models due to the cost of the genomic experiments required to build the training set. However, poor model initialization in active learning can result in suboptimal early selections, wasting time and valuable resources. While typical active learning mitigates this issue over many iterations, the limited number of experimental cycles in genomic studies exacerbates the risk. To this end, we propose graph-based one-shot data selection methods for training gene expression models. Unlike active learning, one-shot data selection predefines the gene perturbations before training, hence removing the initialization bias. The data selection is motivated by theoretical studies of graph neural network generalization. The criteria are defined over the input graph and are optimized with submodular maximization. We compare them empirically to baselines and active learning methods that are state-of-the-art on this problem. The results demonstrate that graph-based one-shot data selection achieves comparable accuracy while alleviating the aforementioned risks.
- Abstract(参考訳): CRISPRベースのPerturbSeq分析を含むゲノム研究は膨大な仮説空間に直面し、遺伝子摂動は高価で時間を要する。
グラフニューラルネットワークに基づく遺伝子発現モデルは、遺伝子摂動の結果を予測し、そのような実験を促進するために訓練される。
アクティブな学習方法は、トレーニングセットを構築するのに必要なゲノム実験のコストのために、これらのモデルをトレーニングするためにしばしば使用される。
しかし、アクティブラーニングにおけるモデル初期化の貧弱さは、最適な早期選択、時間の浪費、貴重な資源をもたらす可能性がある。
典型的なアクティブラーニングは、この問題を多くの反復で緩和するが、ゲノム研究における実験サイクルの限られた数の方がリスクを悪化させる。
そこで本研究では,遺伝子発現モデルをトレーニングするためのグラフベースのワンショットデータ選択手法を提案する。
アクティブな学習とは異なり、ワンショットデータ選択はトレーニング前に遺伝子摂動を事前に定義し、初期化バイアスを取り除く。
データ選択は、グラフニューラルネットワークの一般化の理論的研究によって動機づけられる。
基準は入力グラフ上で定義され、部分モジュラー最大化で最適化される。
本研究は,本問題の最先端技術であるベースラインとアクティブラーニング手法を実証的に比較する。
その結果、グラフベースのワンショットデータ選択は、上記のリスクを軽減しつつ、同等の精度を達成することが示された。
関連論文リスト
- BLEND: Behavior-guided Neural Population Dynamics Modeling via Privileged Knowledge Distillation [6.3559178227943764]
本稿では,特権的知識蒸留による行動誘導型ニューラル人口動態モデリングフレームワークBLENDを提案する。
特権情報として行動を考えることにより、行動観察(私的特徴)と神経活動(正規特徴)の両方を入力として扱う教師モデルを訓練する。
学生モデルは神経活動のみを用いて蒸留される。
論文 参考訳(メタデータ) (2024-10-02T12:45:59Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。