論文の概要: Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties
- arxiv url: http://arxiv.org/abs/2206.08841v1
- Date: Fri, 17 Jun 2022 15:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 15:08:19.462794
- Title: Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties
- Title(参考訳): ランダムなプロジェクションとカーネル化された1つのクラスタのクロスバリデーション:ユニバーサルベースラインと材料特性のための教師付き機械学習のための評価ツール
- Authors: Samantha Durdy, Michael Gaultois, Vladimir Gusev, Danushka Bollegala
and Matthew J. Rosseinsky
- Abstract要約: 1つのクラスタ・アウト・クロス・バリデーション(LOCO-CV)は、これまで目に見えない材料群を予測するアルゴリズムの性能を測定する方法として導入された。
コンポジションベース表現の徹底的な比較を行い,カーネル近似関数を用いてLOCO-CVアプリケーションの拡張を行う方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
- 参考スコア(独自算出の注目度): 10.962094053749093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With machine learning being a popular topic in current computational
materials science literature, creating representations for compounds has become
common place. These representations are rarely compared, as evaluating their
performance - and the performance of the algorithms that they are used with -
is non-trivial. With many materials datasets containing bias and skew caused by
the research process, leave one cluster out cross validation (LOCO-CV) has been
introduced as a way of measuring the performance of an algorithm in predicting
previously unseen groups of materials. This raises the question of the impact,
and control, of the range of cluster sizes on the LOCO-CV measurement outcomes.
We present a thorough comparison between composition-based representations, and
investigate how kernel approximation functions can be used to better separate
data to enhance LOCO-CV applications.
We find that domain knowledge does not improve machine learning performance
in most tasks tested, with band gap prediction being the notable exception. We
also find that the radial basis function improves the linear separability of
chemical datasets in all 10 datasets tested and provide a framework for the
application of this function in the LOCO-CV process to improve the outcome of
LOCO-CV measurements regardless of machine learning algorithm, choice of
metric, and choice of compound representation. We recommend kernelised LOCO-CV
as a training paradigm for those looking to measure the extrapolatory power of
an algorithm on materials data.
- Abstract(参考訳): 機械学習は、現在の計算材料科学文献で一般的な話題であり、化合物の表現を作ることが一般的になっている。
これらの表現は、それらのパフォーマンスを評価するものとして、まれに比較される。
研究プロセスによって生じる偏りと歪を含む多くの材料データセットにより、以前は目に見えない材料群を予測するアルゴリズムの性能を測定する方法として、1つのクラスタ・オブ・クロス・バリデーション(LOCO-CV)が導入された。
これにより、LOCO-CV測定結果に対するクラスタサイズの範囲の影響、制御に関する疑問が提起される。
コンポジションベース表現の徹底的な比較を行い、LOCO-CVアプリケーションを強化するために、カーネル近似関数を用いてデータ分離を改善する方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
また、放射基底関数は、試験された10個のデータセットの線形分離性を向上し、この関数をLOCO-CVプロセスに適用するためのフレームワークを提供し、機械学習アルゴリズム、計量の選択、複合表現の選択に関わらず、LOCO-CV測定の結果を改善する。
我々は,アルゴリズムの材料データに対する外挿力の測定を目的としたトレーニングパラダイムとして,LOCO-CVのカーネル化を推奨する。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Learning Operators with Coupled Attention [9.715465024071333]
本稿では,近年の注目機構の成功を動機とした,新しい演算子学習手法であるLOCAを提案する。
我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。
これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができる。
論文 参考訳(メタデータ) (2022-01-04T08:22:03Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - DAC: Deep Autoencoder-based Clustering, a General Deep Learning
Framework of Representation Learning [0.0]
dac,deep autoencoder-based clustering,深層ニューロンネットワークを用いてクラスタリング表現を学ぶためのデータ駆動フレームワークを提案する。
実験結果から,KMeansクラスタリングアルゴリズムの性能をさまざまなデータセット上で効果的に向上させることができた。
論文 参考訳(メタデータ) (2021-02-15T11:31:00Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。