論文の概要: A Novel Sampled Clustering Algorithm for Rice Phenotypic Data
- arxiv url: http://arxiv.org/abs/2312.14920v1
- Date: Fri, 22 Dec 2023 18:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 13:53:54.464701
- Title: A Novel Sampled Clustering Algorithm for Rice Phenotypic Data
- Title(参考訳): イネ表現型データのための新しいサンプルクラスタリングアルゴリズム
- Authors: Mithun Singh, Kapil Ahuja, Milind B. Ratnaparkhe
- Abstract要約: 本研究では,初期のアルゴリズムをイネの群落に拡張する。
本稿では、スペクトルクラスタリングにおける類似度行列を構築するための新しい関数を提案する。
また、行列要素(ローカルスケーリングと呼ばれる)によって変化し、よりうまく機能する要因も使用します。
- 参考スコア(独自算出の注目度): 0.27624021966289597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phenotypic (or Physical) characteristics of plant species are commonly used
to perform clustering. In one of our recent works (Shastri et al. (2021)), we
used a probabilistically sampled (using pivotal sampling) and spectrally
clustered algorithm to group soybean species. These techniques were used to
obtain highly accurate clusterings at a reduced cost. In this work, we extend
the earlier algorithm to cluster rice species. We improve the base algorithm in
three ways. First, we propose a new function to build the similarity matrix in
Spectral Clustering. Commonly, a natural exponential function is used for this
purpose. Based upon the spectral graph theory and the involved Cheeger's
inequality, we propose the use a base "a" exponential function instead. This
gives a similarity matrix spectrum favorable for clustering, which we support
via an eigenvalue analysis.
Second, the function used to build the similarity matrix in Spectral
Clustering was earlier scaled with a fixed factor (called global scaling).
Based upon the idea of Zelnik-Manor and Perona (2004), we now use a factor that
varies with matrix elements (called local scaling) and works better. Third, to
compute the inclusion probability of a specie in the pivotal sampling
algorithm, we had earlier used the notion of deviation that captured how far
specie's characteristic values were from their respective base values (computed
over all species). A maximum function was used before to find the base values.
We now use a median function, which is more intuitive. We support this choice
using a statistical analysis. With experiments on 1865 rice species, we
demonstrate that in terms of silhouette values, our new Sampled Spectral
Clustering is 61% better than Hierarchical Clustering (currently prevalent).
Also, our new algorithm is significantly faster than Hierarchical Clustering
due to the involved sampling.
- Abstract(参考訳): 植物種のフェノタイプ(または物理的)特性は、一般的にクラスタリングに使用される。
最近の研究の一つ(Shastri et al. (2021))では、確率的サンプリング(ピボットサンプリング)とスペクトル的クラスタリングアルゴリズムを用いてダイズ種を分類した。
これらの手法は、低コストで高精度なクラスタリングを得るために使われた。
本研究では,初期のアルゴリズムをイネの群落に拡張する。
基本アルゴリズムを3つの方法で改善する。
まず,スペクトルクラスタリングにおける類似性行列を構築する新しい関数を提案する。
一般に、自然指数関数はこの目的のために用いられる。
スペクトルグラフ理論とチーガーの不等式に基づき、代わりに基本"a"指数関数を用いることを提案する。
これはクラスタリングに好適な類似性行列スペクトルを与え、固有値解析によってサポートする。
第二に、スペクトルクラスタリングで類似性行列を構築するために使われる関数は、以前固定因子(グローバルスケーリングと呼ばれる)でスケールされた。
Zelnik-Manor と Perona (2004) のアイデアに基づいて、行列要素(局所スケーリングと呼ばれる)によって変化する因子を使い、よりうまく機能する。
第三に、重要なサンプリングアルゴリズムにおけるspecieの包含確率を計算するために、我々は以前、specieの特性値がそれぞれの基底値からどれだけ離れているか(すべての種で計算されている)を捉えた偏差の概念を用いていた。
基本値を見つけるために、以前は最大関数が使われていた。
現在では中央値関数を使っており、より直感的です。
我々はこの選択を統計分析を用いて支持する。
1865種のイネについての実験を行い、シルエット値の観点から、我々の新しいサンプリングスペクトルクラスタリングは階層クラスタリングよりも61%優れていることを実証した。
また,新しいアルゴリズムは,サンプリングによる階層的クラスタリングよりもかなり高速である。
関連論文リスト
- A Restarted Large-Scale Spectral Clustering with Self-Guiding and Block
Diagonal Representation [1.115905690697198]
自己誘導とブロック対角表現を備えた再起動クラスタリングフレームワークを提案する。
この戦略の利点は、以前のサイクルから得られた有用なクラスタリング情報を保存できることである。
スペクトルクラスタリングにおける不正確な計算の合理性を示す理論的結果が確立された。
論文 参考訳(メタデータ) (2023-06-27T01:38:52Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Spectral Clustering with Smooth Tiny Clusters [14.483043753721256]
本稿では,データのスムーズさを初めて考慮した新しいクラスタリングアルゴリズムを提案する。
私たちのキーとなるアイデアは、スムーズなグラフを構成する小さなクラスタをクラスタ化することです。
本稿では,マルチスケールな状況に着目するが,データのスムーズさの考え方はどのクラスタリングアルゴリズムにも確実に拡張できる。
論文 参考訳(メタデータ) (2020-09-10T05:21:20Z) - Average Sensitivity of Spectral Clustering [31.283432482502278]
入力グラフにおけるエッジ摂動に対するスペクトルクラスタリングの安定性について検討する。
その結果,入力グラフにクラスタ構造が存在する場合,スペクトルクラスタリングはエッジ摂動に対して安定であることが示唆された。
論文 参考訳(メタデータ) (2020-06-07T09:14:44Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Strong Consistency, Graph Laplacians, and the Stochastic Block Model [1.2891210250935143]
ブロックモデルを学ぶために,古典的な2段階のスペクトルクラスタリングの性能をグラフラプラシアンを用いて検討する。
スペクトルクラスタリングは,情報理論の限界に合致する条件下で,植民コミュニティ構造を正確に復元できることを示す。
論文 参考訳(メタデータ) (2020-04-21T07:16:46Z) - Randomized Spectral Clustering in Large-Scale Stochastic Block Models [13.366036495177923]
統計的観点からランダム化されたスケッチアルゴリズムを用いてスペクトルクラスタリングについて検討する。
弱い条件下では、ランダム化されたスペクトルクラスタリングアルゴリズムは、元のスペクトルクラスタリングアルゴリズムと同じ理論的境界に導かれる。
Rclustと呼ばれる新しいRパッケージが開発され、一般に公開されている。
論文 参考訳(メタデータ) (2020-01-20T04:15:25Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。