論文の概要: Chemical Property Prediction Under Experimental Biases
- arxiv url: http://arxiv.org/abs/2009.08687v3
- Date: Thu, 9 Dec 2021 16:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:33:03.457043
- Title: Chemical Property Prediction Under Experimental Biases
- Title(参考訳): 実験バイアス下における化学特性予測
- Authors: Yang Liu and Hisashi Kashima
- Abstract要約: 本研究は,実験データセットにおけるバイアス軽減に焦点を当てた。
我々は因果推論とグラフニューラルネットワークを組み合わせた2つの手法を用いて分子構造を表現した。
4つのバイアスシナリオによる実験結果から,逆確率スコアリング法と反実回帰法が確固たる改善をもたらしたことが示唆された。
- 参考スコア(独自算出の注目度): 26.407895054724452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the chemical properties of compounds is crucial in discovering
novel materials and drugs with specific desired characteristics. Recent
significant advances in machine learning technologies have enabled automatic
predictive modeling from past experimental data reported in the literature.
However, these datasets are often biased because of various reasons, such as
experimental plans and publication decisions, and the prediction models trained
using such biased datasets often suffer from over-fitting to the biased
distributions and perform poorly on subsequent uses. Hence, this study focused
on mitigating bias in the experimental datasets. We adopted two techniques from
causal inference combined with graph neural networks that can represent
molecular structures. The experimental results in four possible bias scenarios
indicated that the inverse propensity scoring-based method and the
counter-factual regression-based method made solid improvements.
- Abstract(参考訳): 化合物の化学的性質の予測は、特定の望ましい特性を持つ新規な物質や薬物の発見に不可欠である。
機械学習技術の最近の顕著な進歩は、文献に報告された過去の実験データから自動予測モデリングを可能にした。
しかし、これらのデータセットは、実験計画や公開決定など、さまざまな理由により偏りがしばしばあり、これらの偏りのあるデータセットを使って訓練された予測モデルは、偏りのある分布に過剰に適合し、その後の用途に悪影響を与えることが多い。
そこで本研究では,実験データセットのバイアス軽減に焦点を当てた。
因果推論と,分子構造を表現するグラフニューラルネットワークを組み合わせた2つの手法を採用した。
4つのバイアスシナリオによる実験結果から,逆確率スコア法と反実回帰法が絶対的改善を示した。
関連論文リスト
- Balancing Molecular Information and Empirical Data in the Prediction of Physico-Chemical Properties [8.649679686652648]
本稿では,分子記述子と表現学習を組み合わせた一般的な手法を提案する。
提案したハイブリッドモデルは,グラフニューラルネットワークを用いた化学構造情報を利用する。
構造に基づく予測が信頼できない場合を自動的に検出し、表現学習に基づく予測によって修正する。
論文 参考訳(メタデータ) (2024-06-12T10:51:00Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Revealing the Relationship Between Publication Bias and Chemical Reactivity with Contrastive Learning [13.299207805882755]
CAS Content Collection$textTM$で20,798 aryl halidesをトレーニングし,2010年から2015年にかけて数千の出版物を対象とした。
この研究は、新しい方法でデータ文学から学ぶための化学固有の機械学習訓練戦略を示すだけでなく、出版物における基質選択の傾向に反映される化学反応性の傾向を明らかにするためのユニークなアプローチを示す。
論文 参考訳(メタデータ) (2024-02-19T02:21:20Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Statistical quantification of confounding bias in predictive modelling [0.0]
未確立モデルと完全構築モデルのnull仮説を探索する部分的および完全共創テストを提案する。
このテストは、非正規および非線形依存の予測であっても、I型エラーと高い統計的パワーに対して厳格な制御を提供する。
論文 参考訳(メタデータ) (2021-11-01T10:35:24Z) - Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction
Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。
まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。
第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文 参考訳(メタデータ) (2021-05-06T13:11:56Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling [13.463035357173045]
データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
論文 参考訳(メタデータ) (2020-01-15T12:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。