論文の概要: Escaping Local Optima in the Waddington Landscape: A Multi-Stage TRPO-PPO Approach for Single-Cell Perturbation Analysis
- arxiv url: http://arxiv.org/abs/2510.13018v1
- Date: Tue, 14 Oct 2025 22:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.435367
- Title: Escaping Local Optima in the Waddington Landscape: A Multi-Stage TRPO-PPO Approach for Single-Cell Perturbation Analysis
- Title(参考訳): ワンセル摂動解析のためのマルチステージTRPO-PPOアプローチ
- Authors: Francis Boabang, Samuel Asante Gyamerah,
- Abstract要約: 単一セル摂動ポリシーモデリングのための多段階学習強化アルゴリズムを提案する。
まず自然摂動ベクトルと共役型KLPO信頼解決器を更新し、政策モデリングの安全な第一歩を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling cellular responses to genetic and chemical perturbations remains a central challenge in single-cell biology. Existing data-driven framework have advanced perturbation prediction through variational autoencoders, chemically conditioned autoencoders, and large-scale transformer pretraining. However, these models are prone to local optima in the nonconvex Waddington landscape of cell fate decisions, where poor initialization can trap trajectories in spurious lineages or implausible differentiation outcomes. While executable gene regulatory networks complement these approaches, automated design frameworks incorporate biological priors through multi-agent optimization. Yet, an approach that is completely data-driven with well-designed initialization to escape local optima and converge to a proper lineage remains elusive. In this work, we introduce a multistage reinforcement learning algorithm tailored for single-cell perturbation modeling. We first compute an explicit natural gradient update using Fisher-vector products and a conjugate gradient solver, scaled by a KL trust-region constraint to provide a safe, curvature-aware the first step for the policy. Starting with these preconditioned parameters, we then apply a second phase of proximal policy optimization (PPO) with clipped surrogates, exploiting minibatch efficiency to refine the policy. We demonstrate that this initialization substantially improves generalization on Single-cell RNA sequencing (scRNA-seq) and Single-cell ATAC sequencing (scATAC-seq) pertubation analysis.
- Abstract(参考訳): 遺伝学的および化学的摂動に対する細胞応答のモデル化は、単細胞生物学における中心的な課題である。
既存のデータ駆動フレームワークは、変動型オートエンコーダ、化学条件付きオートエンコーダ、大規模トランスフォーマプリトレーニングを通じて、高度な摂動予測を行う。
しかし、これらのモデルは、細胞運命決定の非凸ワディントン景観において局所的最適である傾向があり、そこでは、未熟な初期化が、急激な系統や、不可解な分化の結果の軌跡をトラップすることができる。
実行可能遺伝子制御ネットワークはこれらのアプローチを補完するが、自動設計フレームワークは、マルチエージェント最適化によって生物学的な先入観を取り入れている。
しかし、局所最適から逃れ、適切な系統に収束するための、十分に設計された初期化とともに完全にデータ駆動のアプローチは、いまだ解明されていない。
本研究では,単セル摂動モデルに適した多段階強化学習アルゴリズムを提案する。
我々はまず,KL信頼領域制約によって拡張されたフィッシャーベクトル積と共役勾配解法を用いて,自然勾配の明示的な更新を計算する。
これらの条件付きパラメータから始めると、クリッピングされたサロゲートを持つ近似ポリシー最適化(PPO)の第2フェーズを適用し、ミニバッチ効率を利用してポリシーを洗練する。
この初期化により、シングルセルRNAシークエンシング(scRNA-seq)とシングルセルATACシークエンシング(scATAC-seq)パータベーション解析の一般化が大幅に向上することが実証された。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Refine Drugs, Don't Complete Them: Uniform-Source Discrete Flows for Fragment-Based Drug Discovery [0.0]
InVirtuoGenは,de novo と fragment-constrained 生成のための断片化SMILESの離散フロー生成モデルである。
本稿では,遺伝的アルゴリズムと遺伝的特性最適化の微調整戦略を組み合わせたハイブリッド手法を提案する。
提案手法は,タスク全体にわたるトップ10のAUCによって測定された,実用的分子最適化ベンチマークの最先端を新たに設定する。
論文 参考訳(メタデータ) (2025-09-30T15:34:53Z) - Random Matrix Theory-guided sparse PCA for single-cell RNA-seq data [0.0]
単細胞RNA-seqは個々の細胞の詳細な分子スナップショットを提供する。
ほとんどの研究は、次元減少のための主成分分析(PCA)に依存している。
スパースプリンシパルコンポーネントの推論を導くRMT(Random Matrix Theory)ベースのアプローチでPCAを改善する。
論文 参考訳(メタデータ) (2025-09-18T21:08:38Z) - Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - Unsupervised Parameter Efficient Source-free Post-pretraining [52.27955794126508]
教師なしのUpStepを紹介します。
ソースドメインからターゲットドメインへのベースモデルを適応するための、ソースフリーのポストプレトレーニングアプローチ。
私たちは、Imagenetをベースモデルとして、教師付きおよび教師なしの両方でトレーニングされた、さまざまな一般的なバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2025-02-28T18:54:51Z) - Stochastic gradient descent estimation of generalized matrix factorization models with application to single-cell RNA sequencing data [39.146761527401424]
単細胞RNAシークエンシングは、個々の細胞レベルでの遺伝子発現の定量化を可能にする。
次元の減少は、サンプルの可視化、クラスタリング、表現型特徴付けに不可欠な一般的な前処理ステップである。
一般指数分散族分布を仮定した一般化行列分解モデルを提案する。
提案手法は, 数百万セルにシームレスに拡張可能であることを示し, 大規模単一セルデータセットの次元性低減を実現する。
論文 参考訳(メタデータ) (2024-12-29T16:02:15Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - K-Nearest-Neighbors Induced Topological PCA for scRNA Sequence Data
Analysis [0.3683202928838613]
永続ラプラシアン(PL)法とL$_2,1$ノルム正規化を組み合わせたトポロジカルプライマリコンポーネント分析(tPCA)法を提案する。
さらに, k-Nearest-Neighbor (kNN) の永続ラプラス的手法を導入し, 永続ラプラス的手法の堅牢性を向上させる。
提案したtPCA法とkNN-tPCA法の有効性を,11種類のscRNA-seqデータセット上で検証した。
論文 参考訳(メタデータ) (2023-10-23T03:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。