論文の概要: MD-HIT: Machine learning for materials property prediction with dataset
redundancy control
- arxiv url: http://arxiv.org/abs/2307.04351v1
- Date: Mon, 10 Jul 2023 05:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:11:31.743679
- Title: MD-HIT: Machine learning for materials property prediction with dataset
redundancy control
- Title(参考訳): MD-HIT:データセット冗長性制御による材料特性予測のための機械学習
- Authors: Qin Li, Nihang Fu, Sadman Sadeed Omee, Jianjun Hu
- Abstract要約: 本稿では,構成ベースおよび構造ベース材料特性予測のための文献における過大評価MLの性能について検討する。
MD-HITと呼ばれる材料データセットの冗長性低減アルゴリズムを提案し,これをいくつかの構成と構造に基づく距離閾値を用いて評価し,データセットの冗長性を低減する。
- 参考スコア(独自算出の注目度): 2.467976927918925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Materials datasets are usually featured by the existence of many redundant
(highly similar) materials due to the tinkering material design practice over
the history of materials research. For example, the materials project database
has many perovskite cubic structure materials similar to SrTiO$_3$. This sample
redundancy within the dataset makes the random splitting of machine learning
model evaluation to fail so that the ML models tend to achieve over-estimated
predictive performance which is misleading for the materials science community.
This issue is well known in the field of bioinformatics for protein function
prediction, in which a redundancy reduction procedure (CD-Hit) is always
applied to reduce the sample redundancy by ensuring no pair of samples has a
sequence similarity greater than a given threshold. This paper surveys the
overestimated ML performance in the literature for both composition based and
structure based material property prediction. We then propose a material
dataset redundancy reduction algorithm called MD-HIT and evaluate it with
several composition and structure based distance threshold sfor reducing data
set sample redundancy. We show that with this control, the predicted
performance tends to better reflect their true prediction capability. Our
MD-hit code can be freely accessed at https://github.com/usccolumbia/MD-HIT
- Abstract(参考訳): 材料データセットは通常、材料研究の歴史を振り返る材料設計の実践により、多くの冗長な(非常に類似した)材料の存在によって特徴付けられる。
例えば、材料プロジェクトデータベースは、SrTiO$_3$と似たペロブスカイト立方体構造材料を多数持っている。
このデータセット内のサンプル冗長性により、機械学習モデルの評価のランダムな分割が失敗し、mlモデルが材料科学コミュニティを誤解させるような過大な予測性能を達成しがちである。
この問題は、タンパク質機能予測のバイオインフォマティクスの分野でよく知られており、サンプルのペアが与えられたしきい値以上の配列類似性を持つことを確実にすることで、冗長性低減手順(cd-hit)を常に適用してサンプル冗長性を低減する。
本稿では,構成ベースおよび構造ベース材料特性予測のための文献における過大評価MLの性能について検討する。
次に,MD-HITと呼ばれる材料データセットの冗長性低減アルゴリズムを提案し,サンプルの冗長性を低減するために,いくつかの構成と構造に基づく距離閾値を用いて評価する。
この制御により、予測性能は実際の予測能力を反映する傾向にあることを示す。
私たちのMD-hitコードはhttps://github.com/usccolumbia/MD-HITで自由にアクセスできます。
関連論文リスト
- Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Data-efficient and Interpretable Inverse Materials Design using a Disentangled Variational Autoencoder [2.563209727695243]
逆材料設計は、新しい物質発見の加速に成功している。
多くの逆材料設計法では、教材表現のコンパクトな記述を提供するために潜在空間を学習する教師なし学習を用いる。
本稿では,不整合変分オートエンコーダをベースとした半教師付き学習手法を提案し,特徴,潜伏変数,対象特性の確率的関係を学習する。
論文 参考訳(メタデータ) (2024-09-10T02:21:13Z) - Decomposing and Editing Predictions by Modeling Model Computation [75.37535202884463]
コンポーネントモデリングというタスクを導入します。
コンポーネントモデリングの目標は、MLモデルの予測をコンポーネントの観点から分解することだ。
コンポーネント属性を推定するスケーラブルなアルゴリズムであるCOARを提案する。
論文 参考訳(メタデータ) (2024-04-17T16:28:08Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - MatSciML: A Broad, Multi-Task Benchmark for Solid-State Materials
Modeling [7.142619575624596]
MatSci MLは機械学習(MatSci ML)法を用いたMATerials SCIenceをモデル化するためのベンチマークである。
MatSci MLは、モデルトレーニングと評価のための多様な材料システムとプロパティデータを提供する。
マルチデータセットの学習環境において、MatchSci MLは、研究者が複数のデータセットからの観測を組み合わせ、共通の特性を共同で予測することを可能にする。
論文 参考訳(メタデータ) (2023-09-12T03:08:37Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。