論文の概要: Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts
- arxiv url: http://arxiv.org/abs/2601.14969v1
- Date: Wed, 21 Jan 2026 13:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.373344
- Title: Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts
- Title(参考訳): 生物学的および技術的分布変化下における規則シーケンスモデリングのためのロバスト機械学習
- Authors: Yiyao Yang,
- Abstract要約: 性能劣化、校正失敗、不確実性に基づく信頼性を定量化するためのロバストネスフレームワークを導入する。
シミュレーションでは、セル型特異的プログラム、摂動、GCバイアス、深さ変化、バッチ効果、ヘテロscedastic noiseによってモチーフ駆動の制御出力が生成される。
モデルは精度は保たれるが、高い誤差、激しいばらつきの誤校正、モチーフ効果の反転とノイズによるカバー崩壊が支配的な体制である。
- 参考スコア(独自算出の注目度): 0.3948325938742681
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robust machine learning for regulatory genomics is studied under biologically and technically induced distribution shifts. Deep convolutional and attention based models achieve strong in distribution performance on DNA regulatory sequence prediction tasks but are usually evaluated under i.i.d. assumptions, even though real applications involve cell type specific programs, evolutionary turnover, assay protocol changes, and sequencing artifacts. We introduce a robustness framework that combines a mechanistic simulation benchmark with real data analysis on a massively parallel reporter assay (MPRA) dataset to quantify performance degradation, calibration failures, and uncertainty based reliability. In simulation, motif driven regulatory outputs are generated with cell type specific programs, PWM perturbations, GC bias, depth variation, batch effects, and heteroscedastic noise, and CNN, BiLSTM, and transformer models are evaluated. Models remain accurate and reasonably calibrated under mild GC content shifts but show higher error, severe variance miscalibration, and coverage collapse under motif effect rewiring and noise dominated regimes, revealing robustness gaps invisible to standard i.i.d. evaluation. Adding simple biological structural priors motif derived features in simulation and global GC content in MPRA improves in distribution error and yields consistent robustness gains under biologically meaningful genomic shifts, while providing only limited protection against strong assay noise. Uncertainty-aware selective prediction offers an additional safety layer that risk coverage analyses on simulated and MPRA data show that filtering low confidence inputs recovers low risk subsets, including under GC-based out-of-distribution conditions, although reliability gains diminish when noise dominates.
- Abstract(参考訳): 制御ゲノム学のためのロバスト機械学習は、生物学的および技術的に誘導された分布シフトの下で研究される。
深層畳み込みと注目に基づくモデルでは、DNA規制シーケンス予測タスクの分散性能は高いが、実際の応用には、細胞型特定プログラム、進化的転倒、プロトコルの変更、シークエンシングアーティファクトが含まれるが、一般的には仮定に基づいて評価される。
本稿では,大規模並列レポーターアッセイ(MPRA)データセット上で,力学シミュレーションベンチマークと実データ解析を併用して,性能劣化,キャリブレーション故障,不確実性に基づく信頼性を定量化するロバストネスフレームワークを提案する。
シミュレーションでは, セル型特異的プログラム, PWM摂動, GCバイアス, 深さ変動, バッチ効果, 異方性雑音を用いてモチーフ駆動制御出力を生成し, CNN, BiLSTM, トランスフォーマーモデルの評価を行った。
モデルは、軽度のGCコンテンツシフトの下で正確かつ合理的に校正されるが、より高い誤差、過度なばらつきの校正、モチーフ効果のリワイアとノイズが支配的な体制下でのカバレッジ崩壊が示され、標準的評価では見えないロバスト性ギャップが明らかになる。
MPRAのシミュレーションや大域的なGCコンテントに単純な生物学的構造的先行性を加えることで、分布誤差が改善し、生物学的に意味のあるゲノムシフトの下で一貫した堅牢性が向上すると同時に、強いアッセイノイズに対する限られた保護しか提供されない。
不確かさを意識した選択予測では、シミュレーションデータとMPRAデータによるリスクカバレッジ分析により、GCベースのアウト・オブ・ディストリビューション条件を含む低リスクサブセットのフィルタリングが回復するが、ノイズが支配されると信頼性が低下する。
関連論文リスト
- Noisy Analysis of Quantum SMOTE on Condition Monitoring and Fault Classification in Industrial and Energy Systems [0.5505634045241289]
不均衡機械学習モデルは、産業状況の監視と故障分類パイプラインにおける根本的な問題である。
この研究は、クラス不均衡緩和の下での古典的分類器の詳細なベンチマークと調査を示す。
その結果,QSMOTEは分布スキューを一貫して補正し,非線形分類器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-16T16:44:38Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Locally Adaptive Conformal Inference for Operator Models [5.78532405664684]
演算子モデルに対して関数値の局所適応予測セットを生成するための分散フリーフレームワークであるLocal Sliced Conformal Inference (LSCI)を紹介する。
我々は有限サンプルの有効性を証明し、局所交換性の下でのカバレッジギャップにデータ依存の上限を導出する。
偏りのある予測や分布外雑音に対する空間を実証的に実証する。
論文 参考訳(メタデータ) (2025-07-28T16:37:56Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Statistical Management of the False Discovery Rate in Medical Instance Segmentation Based on Conformal Risk Control [2.4578723416255754]
インスタンスセグメンテーションは、病変、腫瘍、解剖学的構造の正確な局在化とデライン化を可能にすることで、医療画像解析において重要な役割を担っている。
Mask R-CNNやBlendMaskのようなディープラーニングモデルは目覚ましい進歩を遂げているが、リスクの高い医療シナリオにおけるそれらの応用は、信頼性の校正の問題によって制限されている。
本稿では,この課題に対処するために,共形予測理論に基づく堅牢な品質制御フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-06T13:31:19Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Generative Principal Component Regression via Variational Inference [2.4415762506639944]
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。
我々は,そのような情報を潜在空間で表現する,教師付き変分オートエンコーダ(SVAE)に基づく新しい目的を開発する。
シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
論文 参考訳(メタデータ) (2024-09-03T22:38:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。