論文の概要: Compact Artificial Neural Network Models for Predicting Protein Residue - RNA Base Binding
- arxiv url: http://arxiv.org/abs/2511.08648v1
- Date: Thu, 13 Nov 2025 01:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.172668
- Title: Compact Artificial Neural Network Models for Predicting Protein Residue - RNA Base Binding
- Title(参考訳): タンパク質残基-RNA塩基結合予測のための小型人工ニューラルネットワークモデル
- Authors: Stanislav Selitskiy,
- Abstract要約: タンパク質RNA予測において,小さなANNモデルが許容できる精度を達成できるかどうかを検討した。
我々は、高度にバランスの取れないデータの問題に対処するために、さまざまなトレーニング手法を探求した。
以上の結果から,ほとんどの教育・研究機関で利用可能なハードウェアを用いて,高精度なタンパク質-RNA結合予測が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Artificial Neural Network (ANN) models have demonstrated success in various domains, including general text and image generation, drug discovery, and protein-RNA (ribonucleic acid) binding tasks. However, these models typically demand substantial computational resources, time, and data for effective training. Given that such extensive resources are often inaccessible to many researchers and that life sciences data sets are frequently limited, we investigated whether small ANN models could achieve acceptable accuracy in protein-RNA prediction. We experimented with shallow feed-forward ANNs comprising two hidden layers and various non-linearities. These models did not utilize explicit structural information; instead, a sliding window approach was employed to implicitly consider the context of neighboring residues and bases. We explored different training techniques to address the issue of highly unbalanced data. Among the seven most popular non-linearities for feed-forward ANNs, only three: Rectified Linear Unit (ReLU), Gated Linear Unit (GLU), and Hyperbolic Tangent (Tanh) yielded converging models. Common re-balancing techniques, such as under- and over-sampling of training sets, proved ineffective, whereas increasing the volume of training data and using model ensembles significantly improved performance. The optimal context window size, balancing both false negative and false positive errors, was found to be approximately 30 residues and bases. Our findings indicate that high-accuracy protein-RNA binding prediction is achievable using computing hardware accessible to most educational and research institutions.
- Abstract(参考訳): 大規模人工ニューラルネットワーク(ANN)モデルは、汎用テキストや画像生成、薬物発見、タンパク質-RNA(リボ核酸)結合タスクなど、さまざまな領域で成功している。
しかし、これらのモデルは通常、効果的なトレーニングのためにかなりの計算資源、時間、データを必要とする。
このような膨大な資源が多くの研究者に利用できないことや、生命科学のデータセットが頻繁に制限されていることを考えると、小型のANNモデルがタンパク質-RNA予測において許容できる精度を達成できるかどうかを検討した。
隠れた2つの層と様々な非線形性からなる浅いフィードフォワードANNを実験した。
これらのモデルは明示的な構造情報を利用せず、代わりに、近隣の残基や基地の文脈を暗黙的に考慮するためにスライディングウインドウアプローチが採用された。
我々は、高度にバランスの取れないデータの問題に対処するために、さまざまなトレーニング手法を探求した。
フィードフォワードANNの最も人気のある7つの非ラインナリティーのうち、Rectified Linear Unit (ReLU)、Gated Linear Unit (GLU)、Hyperbolic Tangent (Tanh) の3つのみが収束モデルである。
トレーニングセットのアンダーサンプリングやオーバーサンプリングといった一般的な再バランス技術は効果を示さなかったが、トレーニングデータの量を増やし、モデルのアンサンブルを使用することで性能が大幅に向上した。
偽陰性誤差と偽陽性誤差の両方のバランスをとる最適なコンテキストウィンドウサイズは、約30の残基と基数であることが判明した。
以上の結果から,ほとんどの教育・研究機関で利用可能なハードウェアを用いて,高精度なタンパク質-RNA結合予測が可能であることが示唆された。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Benchmarking Foundation Models for Mitotic Figure Classification [0.37334049820361814]
自己教師付き学習技術は、大規模なニューラルネットワークのトレーニングに大量のラベルのないデータを使用することを可能にした。
本研究では,ミオティックフィギュア分類における基礎モデルの利用について検討する。
我々は、すべてのモデルと、CNNとVision Transformerの両方のエンドツーエンドトレーニングベースラインを比較した。
論文 参考訳(メタデータ) (2025-08-06T13:30:40Z) - On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Large Deviations for Accelerating Neural Networks Training [5.864710987890994]
LAD改良反復訓練(LIIT)は,大規模な逸脱原理を用いたANNのための新しい訓練手法である。
LIITアプローチでは、LAD異常スコアに基づくサンプリング戦略を用いて、MTS(Modified Training Sample)を生成し、反復的に更新する。
MTSサンプルは、各クラスにおける観察のほとんどを異常に含めることで、トレーニングデータをうまく表現するように設計されている。
論文 参考訳(メタデータ) (2023-03-02T04:14:05Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - Semi-supervised teacher-student deep neural network for materials
discovery [6.333015476935593]
本稿では,高速な生成エネルギーと合成可能性予測のための半教師付き深層ニューラルネットワーク(TSDNN)モデルを提案する。
生成エネルギーに基づく安定性スクリーニングでは,ベースラインCGCNN回帰モデルと比較して絶対精度が10.3%向上する。
合成可能性予測では,1/49モデルパラメータを用いて,ベースラインPU学習の正の確率を87.9%から97.9%に有意に向上させた。
論文 参考訳(メタデータ) (2021-12-12T04:00:21Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。