論文の概要: ET-AL: Entropy-Targeted Active Learning for Bias Mitigation in Materials
Data
- arxiv url: http://arxiv.org/abs/2211.07881v2
- Date: Wed, 16 Nov 2022 22:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:55:27.435098
- Title: ET-AL: Entropy-Targeted Active Learning for Bias Mitigation in Materials
Data
- Title(参考訳): ET-AL:材料データにおけるバイアス軽減のためのエントロピー型アクティブラーニング
- Authors: Hengrui Zhang, Wei Wayne Chen, James M. Rondinelli, Wei Chen
- Abstract要約: 材料データとデータ中心の情報ツールは、材料の発見と設計を劇的に促進する。
機械学習のようなデータ駆動型モデルは、多くの注目を集め、大きな進歩をみせている。
材料データ品質の重要な側面であるバイアス緩和に焦点を当てる。
- 参考スコア(独自算出の注目度): 8.623994950369127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing materials data and data-centric informatics tools drastically promote
the discovery and design of materials. While data-driven models, such as
machine learning, have drawn much attention and observed significant progress,
the quality of data resources is equally important but less studied. In this
work, we focus on bias mitigation, an important aspect of materials data
quality. Quantifying the diversity of stability in different crystal systems,
we propose a metric for measuring structure-stability bias in materials data.
To mitigate the bias, we develop an entropy-target active learning (ET-AL)
framework, guiding the acquisition of new data so that diversities of
underrepresented crystal systems are improved, thus mitigating the bias. With
experiments on materials datasets, we demonstrate the capability of ET-AL and
the improvement in machine learning models through bias mitigation. The
approach is applicable to data-centric informatics in other scientific domains.
- Abstract(参考訳): 材料データとデータセントリックインフォマティクスツールの成長は、材料の発見と設計を劇的に促進する。
機械学習のようなデータ駆動型モデルは、多くの注目を集め、大きな進歩を観察してきたが、データリソースの品質は等しく重要であるが、研究は少ない。
本研究では,材料データ品質の重要な側面であるバイアス緩和に焦点をあてる。
異なる結晶系の安定性の多様性を定量化するために, 材料データ中の構造安定性バイアスを測定する指標を提案する。
バイアスを軽減するため, エントロピーターゲット型アクティブラーニング(ET-AL)フレームワークを開発し, 未表現結晶系の多様性が向上し, バイアスを緩和する。
材料データセットの実験により、ET-ALの能力とバイアス緩和による機械学習モデルの改善を実証する。
このアプローチは、他の科学領域のデータ中心情報学に適用できる。
関連論文リスト
- Foundation Model for Composite Materials and Microstructural Analysis [49.1574468325115]
複合材料に特化して設計された基礎モデルを提案する。
我々のモデルは、頑健な潜伏特性を学習するために、短繊維コンポジットのデータセット上で事前訓練されている。
転送学習中、MMAEはR2スコアが0.959に達し、限られたデータで訓練しても0.91を超えている均質化剛性を正確に予測する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Data Curation and Quality Assurance for Machine Learning-based Cyber
Intrusion Detection [1.0276024900942873]
本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。
実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。
そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
論文 参考訳(メタデータ) (2021-05-20T21:31:46Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。