論文の概要: Empirical observations on the effects of data transformation in machine
learning classification of geological domains
- arxiv url: http://arxiv.org/abs/2106.05855v1
- Date: Fri, 4 Jun 2021 07:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 14:01:11.398260
- Title: Empirical observations on the effects of data transformation in machine
learning classification of geological domains
- Title(参考訳): 地質領域の機械学習分類におけるデータ変換の効果に関する実証的研究
- Authors: Raymond Leung
- Abstract要約: 本研究の目的は,データを用いた機械学習の学習において,データ変換が地域分類に与える影響を検討することである。
トレーニングインプットは、西オーストラリア州のピルバラ鉄鉱床から得られた調査ホールアッセイのサンプルから成っている。
調査した変換には、ログ比(ILR)、中央ログ比(CLR)、主成分分析(PCA)、独立成分分析(ICA)などがある。
その結果、異なるML分類器はこれらの変換に対して様々な感度を示し、いくつかは他よりも明らかに有利または有害であることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the literature, a large body of work advocates the use of log-ratio
transformation for multivariate statistical analysis of compositional data. In
contrast, few studies have looked at how data transformation changes the
efficacy of machine learning classifiers within geoscience. This letter
presents experiment results and empirical observations to further explore this
issue. The objective is to study the effects of data transformation on geozone
classification performance when machine learning (ML) classifiers/estimators
are trained using geochemical data. The training input consists of exploration
hole assay samples obtained from a Pilbara iron-ore deposit in Western
Australia, and geozone labels assigned based on stratigraphic units, the
absence or presence and type of mineralization. The ML techniques considered
are multinomial logistic regression, Gaussian na\"{i}ve Bayes, kNN, linear
support vector classifier, RBF-SVM, gradient boosting and extreme GB, random
forest (RF) and multi-layer perceptron (MLP). The transformations examined
include isometric log-ratio (ILR), center log-ratio (CLR) coupled with
principal component analysis (PCA) or independent component analysis (ICA), and
a manifold learning approach based on local linear embedding (LLE). The results
reveal that different ML classifiers exhibit varying sensitivity to these
transformations, with some clearly more advantageous or deleterious than
others. Overall, the best performing candidate is ILR which is unsurprising
considering the compositional nature of the data. The performance of pairwise
log-ratio (PWLR) transformation is better than ILR for ensemble and tree-based
learners such as boosting and RF; but worse for MLP, SVM and other classifiers.
- Abstract(参考訳): 文献では、多くの著作が構成データの多変量統計解析にlog-ratio変換の使用を提唱している。
対照的に、データ変換が地球科学における機械学習分類器の有効性をどう変えるかを検討する研究はほとんどない。
このレターは、この問題をさらに探究するために実験結果と経験的な観察を示す。
本研究の目的は,データ変換が地化学データを用いて機械学習分類器/推定器を訓練した場合の地域分類性能に及ぼす影響を検討することである。
トレーニングインプットは,西オーストラリア州のピルバラ鉄鉱石鉱床から得られた探査孔アッセイ試料と,層序単位に基づく地層ラベルと,鉱化の欠如・存在・種類とからなる。
検討されているML手法は,多項ロジスティック回帰,ガウス的na\"{i}ve Bayes,kNN,線形サポートベクトル分類器,RBF-SVM,勾配向上と極端なGB,ランダムフォレスト(RF),多層パーセプトロン(MLP)である。
得られた変換には、等尺対数比(ilr)、中心対数比(clr)、主成分分析(pca)、独立成分分析(ica)、局所線形埋め込み(lle)に基づく多様体学習アプローチが含まれる。
その結果、異なるml分類器はこれらの変換に対して様々な感度を示し、他のものよりも明らかに有利か削除的であることが明らかとなった。
全体として、最高のパフォーマンス候補はIDRであり、データの構成的性質を考えると、予想外である。
ペアワイズ対数比変換(PWLR)の性能は、アンサンブルや強化やRFといった木に基づく学習者にとってILRよりも優れているが、MLP、SVM、その他の分類器にとっては悪い。
関連論文リスト
- Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets [53.367212596352324]
脳波信号物理を利用した教師なし手法を提案する。
脳波チャンネルをフィールド、ソースフリーなドメイン適応を用いて固定位置にマッピングする。
提案手法は脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用におけるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-03-07T16:17:33Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Unsupervised Mutual Transformer Learning for Multi-Gigapixel Whole Slide
Image Classification [18.452105665665858]
相互変換学習に基づく完全教師なしWSI分類アルゴリズムを提案する。
正常とがんのインスタンスラベリングを改善するために識別学習機構を導入する。
教師なし分類に加えて,下流分析として癌サブタイプ分類の弱監督のための枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-03T10:54:18Z) - Physics Symbolic Learner for Discovering Ground-Motion Models Via
NGA-West2 Database [4.059252581613122]
地動モデル(GMM)は多くの地震工学研究の基礎となっている。
本研究では,数式演算子を記号として自動的に発見するために,新しい物理インフォームド記号学習法(PISL)を提案する。
論文 参考訳(メタデータ) (2023-03-23T04:14:05Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Multilevel orthogonal Bochner function subspaces with applications to
robust machine learning [1.533771872970755]
このデータを、関連するボヒナー空間内のランダムフィールドのインスタンスとみなす。
私たちのキーとなる観察は、クラスが主に2つの異なる部分空間に存在することである。
論文 参考訳(メタデータ) (2021-10-04T22:01:01Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。