論文の概要: Fast conformational clustering of extensive molecular dynamics
simulation data
- arxiv url: http://arxiv.org/abs/2301.04492v1
- Date: Wed, 11 Jan 2023 14:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 18:15:35.199765
- Title: Fast conformational clustering of extensive molecular dynamics
simulation data
- Title(参考訳): 大規模分子動力学シミュレーションデータの高速コンフォメーションクラスタリング
- Authors: Simon Hunkler, Kay Diederichs, Oleksandra Kukharenko, Christine Peter
- Abstract要約: 本稿では,長い軌道の高速なコンフォーメーションクラスタリングを実現するために,教師なしのデータ処理ワークフローを提案する。
我々は密度に基づく空間クラスタリングアルゴリズム(HDBSCAN)と2つの次元削減アルゴリズム(cc_analysisとEncodermap)を組み合わせる。
4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能とパフォーマンスを説明します。
- 参考スコア(独自算出の注目度): 19.444636864515726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an unsupervised data processing workflow that is specifically
designed to obtain a fast conformational clustering of long molecular dynamics
simulation trajectories. In this approach we combine two dimensionality
reduction algorithms (cc\_analysis and encodermap) with a density-based spatial
clustering algorithm (HDBSCAN). The proposed scheme benefits from the strengths
of the three algorithms while avoiding most of the drawbacks of the individual
methods. Here the cc\_analysis algorithm is for the first time applied to
molecular simulation data. Encodermap complements cc\_analysis by providing an
efficient way to process and assign large amounts of data to clusters. The main
goal of the procedure is to maximize the number of assigned frames of a given
trajectory, while keeping a clear conformational identity of the clusters that
are found. In practice we achieve this by using an iterative clustering
approach and a tunable root-mean-square-deviation-based criterion in the final
cluster assignment. This allows to find clusters of different densities as well
as different degrees of structural identity. With the help of four test systems
we illustrate the capability and performance of this clustering workflow:
wild-type and thermostable mutant of the Trp-cage protein (TC5b and TC10b),
NTL9 and Protein B. Each of these systems poses individual challenges to the
scheme, which in total give a nice overview of the advantages, as well as
potential difficulties that can arise when using the proposed method.
- Abstract(参考訳): 本稿では,分子動力学シミュレーションの高速なクラスタリングを実現するために,教師なしデータ処理ワークフローを提案する。
このアプローチでは,2つの次元分解アルゴリズム (cc\_analysis と encodermap) と密度ベース空間クラスタリングアルゴリズム (HDBSCAN) を組み合わせる。
提案手法は,各手法の欠点を回避しつつ,3つのアルゴリズムの強みを生かしたものである。
ここでは、cc\_ analysisアルゴリズムが初めて分子シミュレーションデータに適用される。
Encodermapは、大量のデータをクラスタに処理し割り当てする効率的な方法を提供することで、cc\_analysisを補完する。
この手順の主な目標は、見つかったクラスタの明確なコンフォメーションアイデンティティを維持しながら、与えられた軌道の割り当てられたフレームの数を最大化することである。
実際に、最終クラスタ割り当てにおいて反復クラスタリングアプローチと可変ルート平均平方偏差に基づく基準を用いてこれを実現する。
これにより、異なる密度のクラスタと異なる構造的アイデンティティを見つけることができる。
4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能と性能を説明します。trp-cageタンパク質(tc5b、tc10b)、ntl9、プロテインbのワイルドタイプおよびサーモスタブル変異体です。これらのシステムはそれぞれ、スキームに個別の課題をもたらします。
関連論文リスト
- Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Anchor-free Clustering based on Anchor Graph Factorization [17.218481911995365]
Anchor Graph Factorization(AFCAGF)に基づくAnchor-free Clusteringと呼ばれる新しい手法を提案する。
AFCAGFはアンカーグラフの学習において革新的であり、サンプル間のペア距離の計算のみを必要とする。
我々は,クラスタセンターとFKMのサンプル間のメンバシップ行列の概念を,複数のアンカーポイントとサンプルを含むアンカーグラフに進化させた。
論文 参考訳(メタデータ) (2024-02-24T02:16:42Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - FLASC: A Flare-Sensitive Clustering Algorithm [0.0]
本稿では,クラスタ内の分岐を検知してサブポピュレーションを同定するアルゴリズムFLASCを提案する。
アルゴリズムの2つの変種が提示され、ノイズの堅牢性に対する計算コストが取引される。
両変種は計算コストの観点からHDBSCAN*と類似してスケールし,安定した出力を提供することを示す。
論文 参考訳(メタデータ) (2023-11-27T14:55:16Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Spectral Clustering using Eigenspectrum Shape Based Nystrom Sampling [19.675277307158435]
本稿では,新しいサンプリング手法であるCentroid Minimum Sum of Squared similarities (CMS3)と,それをいつ使用するかを示す,スケーラブルなNystromベースのクラスタリングアルゴリズムを提案する。
我々のデータセットはデータセットの固有スペクトル形状に依存しており、他の最先端手法と比較して、テストにおいて競合する低ランク近似が得られる。
論文 参考訳(メタデータ) (2020-07-21T17:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。