論文の概要: Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery
- arxiv url: http://arxiv.org/abs/2111.01905v1
- Date: Tue, 2 Nov 2021 21:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:28:20.251590
- Title: Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery
- Title(参考訳): 膨大なデータのオーダネス:計算材料発見における機械学習におけるデータ不足とデータ品質の課題を克服する
- Authors: Aditya Nandy, Chenru Duan, Heather J. Kulik
- Abstract要約: 機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
- 参考スコア(独自算出の注目度): 1.0036312061637764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning (ML)-accelerated discovery requires large amounts of
high-fidelity data to reveal predictive structure-property relationships. For
many properties of interest in materials discovery, the challenging nature and
high cost of data generation has resulted in a data landscape that is both
scarcely populated and of dubious quality. Data-driven techniques starting to
overcome these limitations include the use of consensus across functionals in
density functional theory, the development of new functionals or accelerated
electronic structure theories, and the detection of where computationally
demanding methods are most necessary. When properties cannot be reliably
simulated, large experimental data sets can be used to train ML models. In the
absence of manual curation, increasingly sophisticated natural language
processing and automated image analysis are making it possible to learn
structure-property relationships from the literature. Models trained on these
data sets will improve as they incorporate community feedback.
- Abstract(参考訳): 機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
これらの限界を克服し始めたデータ駆動技術には、密度汎関数理論における関数間のコンセンサスの利用、新しい関数論や加速電子構造理論の開発、計算的要求法がもっとも必要である場所の検出が含まれる。
プロパティが確実にシミュレートできない場合、MLモデルのトレーニングに大規模な実験データセットを使用することができる。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
これらのデータセットでトレーニングされたモデルは、コミュニティのフィードバックを取り入れることで改善される。
関連論文リスト
- Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - Advancing Extrapolative Predictions of Material Properties through Learning to Learn [1.3274508420845539]
我々は、ニューラルネットワークの注意に基づくアーキテクチャとメタ学習アルゴリズムを用いて、外挿的一般化能力を取得する。
このような外挿訓練されたモデルの可能性、特に目に見えない物質ドメインに迅速に適応する能力を強調します。
論文 参考訳(メタデータ) (2024-03-25T09:30:19Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Persistence-based operators in machine learning [62.997667081978825]
永続性に基づくニューラルネットワークレイヤのクラスを導入します。
永続化ベースのレイヤにより、ユーザは、データによって尊重される対称性に関する知識を容易に注入でき、学習可能なウェイトを備え、最先端のニューラルネットワークアーキテクチャで構成できる。
論文 参考訳(メタデータ) (2022-12-28T18:03:41Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Causal Discovery from Incomplete Data: A Deep Learning Approach [21.289342482087267]
因果構造探索と因果構造探索を反復的に行うために, 因果学習を提案する。
ICLは、異なるデータメカニズムで最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-15T14:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。