論文の概要: Importance of feature engineering and database selection in a machine
learning model: A case study on carbon crystal structures
- arxiv url: http://arxiv.org/abs/2102.00191v1
- Date: Sat, 30 Jan 2021 08:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 10:01:25.048628
- Title: Importance of feature engineering and database selection in a machine
learning model: A case study on carbon crystal structures
- Title(参考訳): 機械学習モデルにおける特徴工学とデータベース選択の重要性:炭素結晶構造を事例として
- Authors: Franz M. Rohrhofer, Santanu Saha, Simone Di Cataldo, Bernhard C.
Geiger, Wolfgang von der Linden and Lilia Boeri
- Abstract要約: この研究は、データベースの機能の選択と特性が機械学習アプリケーションに与える影響を深く理解することを目指している。
本研究は, (i) 機械学習モデルの性能が, 特徴セットとデータベースによって異なること, (ii) 位相空間のすべての構造に転送可能でないこと, (iii) データベース内の構造がどのように表現されているかに依存すること,の2点を示す。
- 参考スコア(独自算出の注目度): 5.627346969563955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drive towards improved performance of machine learning models has led to the
creation of complex features representing a database of condensed matter
systems. The complex features, however, do not offer an intuitive explanation
on which physical attributes do improve the performance. The effect of the
database on the performance of the trained model is often neglected. In this
work we seek to understand in depth the effect that the choice of features and
the properties of the database have on a machine learning application. In our
experiments, we consider the complex phase space of carbon as a test case, for
which we use a set of simple, human understandable and cheaply computable
features for the aim of predicting the total energy of the crystal structure.
Our study shows that (i) the performance of the machine learning model varies
depending on the set of features and the database, (ii) is not transferable to
every structure in the phase space and (iii) depends on how well structures are
represented in the database.
- Abstract(参考訳): 機械学習モデルのパフォーマンス向上に向けた動きは、凝縮マターシステムのデータベースを表す複雑な機能の作成につながった。
しかし、複雑な機能では、どの物理的属性がパフォーマンスを改善するのかを直感的に説明できない。
データベースがトレーニングされたモデルのパフォーマンスに与える影響は、しばしば無視される。
この研究では、機能の選択とデータベースの特性が機械学習アプリケーションに与える影響を深く理解することを目指しています。
実験では, 炭素の複雑な相空間をテストケースとして検討し, 結晶構造の総エネルギーを予測するために, 単純, 人間の理解可能, 安価に計算可能な特徴のセットを用いる。
本研究では, (i) 機械学習モデルの性能が特徴集合やデータベースによって異なること, (ii) 位相空間内のすべての構造に移動できないこと, (iii) 構造がデータベースでどのように表現されるかに依存することを示した。
関連論文リスト
- Better, Not Just More: Data-Centric Machine Learning for Earth Observation [16.729827218159038]
モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
論文 参考訳(メタデータ) (2023-12-08T19:24:05Z) - Efficient Surrogate Models for Materials Science Simulations: Machine
Learning-based Prediction of Microstructure Properties [0.0]
いくつかの機械学習アルゴリズムがこれらの科学分野に応用され、シミュレーションモデルや代理モデルを強化し、加速している。
材料科学分野の2つの異なるデータセットに基づいて,6つの機械学習技術の応用について検討する。
論文 参考訳(メタデータ) (2023-09-01T07:29:44Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Multimodal machine learning for materials science: composition-structure
bimodal learning for experimentally measured properties [4.495968252019426]
本稿では,構成構造ビモーダル学習による材料科学におけるマルチモーダル機械学習の新しいアプローチを提案する。
提案するCOSNetは,不完全な構造情報を持つ実験材料特性の学習と予測を強化するために設計されている。
論文 参考訳(メタデータ) (2023-08-04T02:04:52Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Grouped Feature Importance and Combined Features Effect Plot [2.15867006052733]
解釈可能な機械学習は、機械学習アルゴリズムの人気が高まり、研究の活発な領域となっている。
機能グループに対して,既存のモデル非依存手法をどのように定義できるかを包括的に概観し,機能グループの重要性を評価した。
本稿では,特徴のスパースで解釈可能な線形結合に基づいて,特徴群の効果を可視化する手法である複合特徴効果プロットを提案する。
論文 参考訳(メタデータ) (2021-04-23T16:27:38Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。