論文の概要: Stochastic Threshold Model Trees: A Tree-Based Ensemble Method for
Dealing with Extrapolation
- arxiv url: http://arxiv.org/abs/2009.09171v1
- Date: Sat, 19 Sep 2020 05:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:03:33.265400
- Title: Stochastic Threshold Model Trees: A Tree-Based Ensemble Method for
Dealing with Extrapolation
- Title(参考訳): 確率的しきい値モデル木:外挿を扱う木に基づくアンサンブル法
- Authors: Kohei Numata and Kenichi Tanaka
- Abstract要約: 新規材料の開発においては, 前例のない物性を持つ化合物を探索することが望ましい。
本稿では,従来の手法の精度を維持しつつ,データの傾向を反映した開発閾値モデルツリー(STMT)を提案する。
実データの場合、精度が大幅に向上することはないが、予測精度が顕著に向上する化合物が1つ存在する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of chemistry, there have been many attempts to predict the
properties of unknown compounds from statistical models constructed using
machine learning. In an area where many known compounds are present (the
interpolation area), an accurate model can be constructed. In contrast, data in
areas where there are no known compounds (the extrapolation area) are generally
difficult to predict. However, in the development of new materials, it is
desirable to search this extrapolation area and discover compounds with
unprecedented physical properties. In this paper, we propose Stochastic
Threshold Model Trees (STMT), an extrapolation method that reflects the trend
of the data, while maintaining the accuracy of conventional interpolation
methods. The behavior of STMT is confirmed through experiments using both
artificial and real data. In the case of the real data, although there is no
significant overall improvement in accuracy, there is one compound for which
the prediction accuracy is notably improved, suggesting that STMT reflects the
data trends in the extrapolation area. We believe that the proposed method will
contribute to more efficient searches in situations such as new material
development.
- Abstract(参考訳): 化学の分野では、機械学習を用いて構築された統計モデルから未知の化合物の性質を予測する多くの試みがある。
多くの既知の化合物が存在する領域(補間領域)では、正確なモデルを構築することができる。
対照的に、既知の化合物(外挿領域)が存在しない地域のデータは一般的に予測が難しい。
しかし, 新規材料の開発においては, この外挿領域を探索し, 前例のない物性を持つ化合物を発見することが望ましい。
本稿では,従来の補間法の精度を維持しつつ,データの傾向を反映した外挿法である確率的しきい値モデル木(stmt)を提案する。
人工データと実データの両方を用いてSTMTの挙動を確認する。
実データの場合、精度が大幅に向上することはないが、予測精度が顕著に向上する化合物が1つ存在し、STMTが外挿領域のデータ傾向を反映していることが示唆されている。
提案手法は,新素材開発などの状況において,より効率的な探索に寄与すると考えられる。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Data Augmentation Scheme for Raman Spectra with Highly Correlated
Annotations [0.23090185577016453]
統計的に独立なラベルを持つデータセットから追加のデータポイントを生成するために、スペクトルの付加的な性質を利用する。
これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-02-01T18:46:28Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Increased peak detection accuracy in over-dispersed ChIP-seq data with
supervised segmentation models [2.2559617939136505]
制約のない複数変更点検出モデルにおいて、代替ノイズ仮定と適切な設定により、カウントデータによる過分散を低減できることを示す。
結果: 代替ノイズ仮定と適切なセットアップを備えた制約のないマルチチェンジポイント検出モデルにより、カウントデータによって表示される過分散が減少することを示した。
論文 参考訳(メタデータ) (2020-12-12T16:03:27Z) - Chemical Property Prediction Under Experimental Biases [26.407895054724452]
本研究は,実験データセットにおけるバイアス軽減に焦点を当てた。
我々は因果推論とグラフニューラルネットワークを組み合わせた2つの手法を用いて分子構造を表現した。
4つのバイアスシナリオによる実験結果から,逆確率スコアリング法と反実回帰法が確固たる改善をもたらしたことが示唆された。
論文 参考訳(メタデータ) (2020-09-18T08:40:57Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。