論文の概要: Probabilistically Sampled and Spectrally Clustered Plant Genotypes using
Phenotypic Characteristics
- arxiv url: http://arxiv.org/abs/2009.09028v1
- Date: Fri, 18 Sep 2020 18:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:05:50.584851
- Title: Probabilistically Sampled and Spectrally Clustered Plant Genotypes using
Phenotypic Characteristics
- Title(参考訳): フェノタイプ特性を用いた確率サンプリング・分光クラスター植物遺伝子型
- Authors: Aditya A. Shastri, Kapil Ahuja, Milind B. Ratnaparkhe, and Yann Busnel
- Abstract要約: 階層クラスタリング(HC)アルゴリズムは、表現型データのクラスタリングにおける現在の標準である。
本稿では, スペクトルクラスタリング (SC) アルゴリズムを用いて, 計算コストを抑える手法を提案する。
Pivotal Smpling を用いた SC は,精度と計算量の両方で標準 HC アルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 3.1498833540989413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering genotypes based upon their phenotypic characteristics is used to
obtain diverse sets of parents that are useful in their breeding programs. The
Hierarchical Clustering (HC) algorithm is the current standard in clustering of
phenotypic data. This algorithm suffers from low accuracy and high
computational complexity issues. To address the accuracy challenge, we propose
the use of Spectral Clustering (SC) algorithm. To make the algorithm
computationally cheap, we propose using sampling, specifically, Pivotal
Sampling that is probability based. Since application of samplings to
phenotypic data has not been explored much, for effective comparison, another
sampling technique called Vector Quantization (VQ) is adapted for this data as
well. VQ has recently given promising results for genome data.
The novelty of our SC with Pivotal Sampling algorithm is in constructing the
crucial similarity matrix for the clustering algorithm and defining
probabilities for the sampling technique. Although our algorithm can be applied
to any plant genotypes, we test it on the phenotypic data obtained from about
2400 Soybean genotypes. SC with Pivotal Sampling achieves substantially more
accuracy (in terms of Silhouette Values) than all the other proposed
competitive clustering with sampling algorithms (i.e. SC with VQ, HC with
Pivotal Sampling, and HC with VQ). The complexities of our SC with Pivotal
Sampling algorithm and these three variants are almost same because of the
involved sampling. In addition to this, SC with Pivotal Sampling outperforms
the standard HC algorithm in both accuracy and computational complexity. We
experimentally show that we are up to 45% more accurate than HC in terms of
clustering accuracy. The computational complexity of our algorithm is more than
a magnitude lesser than HC.
- Abstract(参考訳): 遺伝的特徴に基づくクラスタリング遺伝子型は、育種プログラムに有用な多様な両親の集合を得るために用いられる。
階層クラスタリング(HC)アルゴリズムは、表現型データのクラスタリングにおける現在の標準である。
このアルゴリズムは、低い精度と高い計算複雑性の問題に苦しむ。
この精度問題に対処するために,スペクトルクラスタリング(SC)アルゴリズムを提案する。
アルゴリズムを計算量的に安価にするために,確率に基づくサンプリング,特に重要なサンプリングを用いることを提案する。
表現型データへのサンプリングの適用はあまり検討されていないため、このデータにもVector Quantization (VQ)と呼ばれる別のサンプリング手法が適用されている。
vqは最近、ゲノムデータに有望な結果をもたらした。
Pivotal SmplingアルゴリズムによるSCの新規性は、クラスタリングアルゴリズムの重要な類似性行列を構築し、サンプリング手法の確率を定義することである。
本アルゴリズムはどの植物属にも適用できるが,約2400種の大豆属から得られた表現型データに基づいて検証する。
Pivotal SamplingのSCは、サンプリングアルゴリズム(VQのSC、Pivotal SamplingのHC、VQのHCなど)で提案された他のすべての競合クラスタリングよりも、はるかに精度が高い(Silhouette Valuesの観点では)。
Pivotal SmplingアルゴリズムによるSCの複雑さとこれら3つの変種はほぼ同じです。
さらに、Pivotal SmplingによるSCは、精度と計算の複雑さの両方で標準のHCアルゴリズムより優れています。
クラスタリングの精度では,HCよりも最大45%精度が高いことが実験的に示された。
我々のアルゴリズムの計算の複雑さはhcよりも1桁小さい。
関連論文リスト
- Gaussian Processes Sampling with Sparse Grids under Additive Schwarz Preconditioner [6.408773096179187]
本稿では,GPモデルの前と後をランダムに実現するためのスケーラブルなアルゴリズムを提案する。
提案アルゴリズムはスパースグリッドを用いた点近似と加法的シュワルツプレコンディショナーを利用する。
論文 参考訳(メタデータ) (2024-08-01T00:19:36Z) - Gaussian Boson Sampling to Accelerate NP-Complete Vertex-Minor Graph
Classification [0.9935277311162707]
2つのグラフが互いに小さいかどうかを決定するNP完全問題に対するハイブリッド量子古典アルゴリズムを提案する。
ワンショット分類精度と入力スクイーズ量とのトレーディングが可能なグラフ埋め込みを見つける。
本稿では,グラフスペクトルに基づく新しい古典的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T21:24:11Z) - Information-Computation Tradeoffs for Learning Margin Halfspaces with
Random Classification Noise [50.64137465792738]
ランダム分類ノイズを用いたPAC$gamma$-marginハーフスペースの問題について検討する。
我々は、問題のサンプル複雑性と計算効率の良いアルゴリズムのサンプル複雑性との間に固有のギャップを示唆する情報計算トレードオフを確立する。
論文 参考訳(メタデータ) (2023-06-28T16:33:39Z) - Optimal Algorithms for the Inhomogeneous Spiked Wigner Model [89.1371983413931]
不均一な問題に対する近似メッセージパッシングアルゴリズム(AMP)を導出する。
特に,情報理論の閾値よりも大きい信号と雑音の比を必要とする既知のアルゴリズムが,ランダムよりも優れた処理を行うための統計的・計算的ギャップの存在を同定する。
論文 参考訳(メタデータ) (2023-02-13T19:57:17Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Cube Sampled K-Prototype Clustering for Featured Data [3.232625980782303]
キューブサンプリングは、正確なサンプル選択のために使用される。
UCIレポジトリからの複数のデータセットの実験では、立方体サンプルのK-Prototypeアルゴリズムが最適なクラスタリング精度を与えることが示された。
論文 参考訳(メタデータ) (2021-08-23T15:59:14Z) - A multi-schematic classifier-independent oversampling approach for
imbalanced datasets [0.0]
従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
論文 参考訳(メタデータ) (2021-07-15T14:03:24Z) - Group Testing with a Graph Infection Spread Model [61.48558770435175]
感染は個人間のつながりを通じて広がり、その結果、確率的クラスター形成構造と、個人に対する非i.d.感染状態が生じる。
そこで本研究では,既知の確率的感染拡散モデルを利用する2段階のサンプルグループテストアルゴリズムを提案する。
その結果, 感染率が高い場合でも, 集団検査により必要な検査数を大幅に削減できることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T18:51:32Z) - Revisiting the Sample Complexity of Sparse Spectrum Approximation of
Gaussian Processes [60.479499225746295]
本稿では,ガウス過程に対して,パラメータ空間全体に対して同時に保持可能な保証付きスケーラブルな近似を導入する。
我々の近似は、スパーススペクトルガウス過程(SSGP)のための改良されたサンプル複雑性解析から得られる。
論文 参考訳(メタデータ) (2020-11-17T05:41:50Z) - Spectral Clustering using Eigenspectrum Shape Based Nystrom Sampling [19.675277307158435]
本稿では,新しいサンプリング手法であるCentroid Minimum Sum of Squared similarities (CMS3)と,それをいつ使用するかを示す,スケーラブルなNystromベースのクラスタリングアルゴリズムを提案する。
我々のデータセットはデータセットの固有スペクトル形状に依存しており、他の最先端手法と比較して、テストにおいて競合する低ランク近似が得られる。
論文 参考訳(メタデータ) (2020-07-21T17:49:03Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。