Fugu-MT 論文翻訳(概要): Audacity of huge: overcoming challenges of data scarcity and data quality for machine learning in computational materials discovery

論文の概要: Audacity of huge: overcoming challenges of data scarcity and data quality for machine learning in computational materials discovery

arxiv url: http://arxiv.org/abs/2111.01905v1
Date: Tue, 2 Nov 2021 21:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 14:28:20.251590
Title: Audacity of huge: overcoming challenges of data scarcity and data quality for machine learning in computational materials discovery
Title（参考訳）: 膨大なデータのオーダネス:計算材料発見における機械学習におけるデータ不足とデータ品質の課題を克服する
Authors: Aditya Nandy, Chenru Duan, Heather J. Kulik
Abstract要約: 機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
参考スコア（独自算出の注目度）: 1.0036312061637764
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Machine learning (ML)-accelerated discovery requires large amounts of high-fidelity data to reveal predictive structure-property relationships. For many properties of interest in materials discovery, the challenging nature and high cost of data generation has resulted in a data landscape that is both scarcely populated and of dubious quality. Data-driven techniques starting to overcome these limitations include the use of consensus across functionals in density functional theory, the development of new functionals or accelerated electronic structure theories, and the detection of where computationally demanding methods are most necessary. When properties cannot be reliably simulated, large experimental data sets can be used to train ML models. In the absence of manual curation, increasingly sophisticated natural language processing and automated image analysis are making it possible to learn structure-property relationships from the literature. Models trained on these data sets will improve as they incorporate community feedback.
Abstract（参考訳）: 機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。これらの限界を克服し始めたデータ駆動技術には、密度汎関数理論における関数間のコンセンサスの利用、新しい関数論や加速電子構造理論の開発、計算的要求法がもっとも必要である場所の検出が含まれる。プロパティが確実にシミュレートできない場合、MLモデルのトレーニングに大規模な実験データセットを使用することができる。手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。これらのデータセットでトレーニングされたモデルは、コミュニティのフィードバックを取り入れることで改善される。

関連論文リスト

A preliminary data fusion study to assess the feasibility of Foundation Process-Property Models in Laser Powder Bed Fusion [0.0]
基礎プロセスプロパティモデルの構築を妨げる大きな課題は、データの不足である。レーザー粉末層融合(LPBF)における17-4 PHおよび316Lステンレス鋼(SS)から実験データセットを生成する。次に、ガウス過程(GP)を様々な構成のプロセス固有性モデリングに利用し、ある物質系や性質に関する知識を活用できるかどうかを検証し、他の物質系や特性のためのより正確な機械学習モデルを構築する。
論文参考訳（メタデータ） (2025-03-20T19:29:38Z)
Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。 SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文参考訳（メタデータ） (2025-03-18T02:14:49Z)
Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文参考訳（メタデータ） (2024-05-16T21:15:51Z)
Advancing Extrapolative Predictions of Material Properties through Learning to Learn [1.3274508420845539]
我々は、ニューラルネットワークの注意に基づくアーキテクチャとメタ学習アルゴリズムを用いて、外挿的一般化能力を取得する。このような外挿訓練されたモデルの可能性、特に目に見えない物質ドメインに迅速に適応する能力を強調します。
論文参考訳（メタデータ） (2024-03-25T09:30:19Z)
Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。 5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文参考訳（メタデータ） (2023-08-26T08:48:51Z)
Persistence-based operators in machine learning [62.997667081978825]
永続性に基づくニューラルネットワークレイヤのクラスを導入します。永続化ベースのレイヤにより、ユーザは、データによって尊重される対称性に関する知識を容易に注入でき、学習可能なウェイトを備え、最先端のニューラルネットワークアーキテクチャで構成できる。
論文参考訳（メタデータ） (2022-12-28T18:03:41Z)
Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文参考訳（メタデータ） (2022-09-05T16:48:34Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文参考訳（メタデータ） (2020-12-15T16:29:49Z)
Occams Razor for Big Data? On Detecting Quality in Large Unstructured Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文参考訳（メタデータ） (2020-11-12T16:06:01Z)
Causal Discovery from Incomplete Data: A Deep Learning Approach [21.289342482087267]
因果構造探索と因果構造探索を反復的に行うために, 因果学習を提案する。 ICLは、異なるデータメカニズムで最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-15T14:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。