論文の概要: Large-scale empirical validation of Bayesian Network structure learning
algorithms with noisy data
- arxiv url: http://arxiv.org/abs/2005.09020v2
- Date: Fri, 11 Sep 2020 13:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:45:17.151065
- Title: Large-scale empirical validation of Bayesian Network structure learning
algorithms with noisy data
- Title(参考訳): 雑音データを用いたベイズネットワーク構造学習アルゴリズムの大規模実証検証
- Authors: Anthony C. Constantinou, Yang Liu, Kiattikun Chobtham, Zhigao Guo and
Neville K. Kitson
- Abstract要約: 本稿では、15個の構造学習アルゴリズムの性能について検討する。
各アルゴリズムは、複数のケーススタディ、サンプルサイズ、ノイズの種類、および複数の評価基準で評価される。
その結果、従来の合成性能は、実世界のパフォーマンスを10%以上50%以上で過大評価する可能性があることが示唆された。
- 参考スコア(独自算出の注目度): 9.04391541965756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous Bayesian Network (BN) structure learning algorithms have been
proposed in the literature over the past few decades. Each publication makes an
empirical or theoretical case for the algorithm proposed in that publication
and results across studies are often inconsistent in their claims about which
algorithm is 'best'. This is partly because there is no agreed evaluation
approach to determine their effectiveness. Moreover, each algorithm is based on
a set of assumptions, such as complete data and causal sufficiency, and tend to
be evaluated with data that conforms to these assumptions, however unrealistic
these assumptions may be in the real world. As a result, it is widely accepted
that synthetic performance overestimates real performance, although to what
degree this may happen remains unknown. This paper investigates the performance
of 15 structure learning algorithms. We propose a methodology that applies the
algorithms to data that incorporates synthetic noise, in an effort to better
understand the performance of structure learning algorithms when applied to
real data. Each algorithm is tested over multiple case studies, sample sizes,
types of noise, and assessed with multiple evaluation criteria. This work
involved approximately 10,000 graphs with a total structure learning runtime of
seven months. It provides the first large-scale empirical validation of BN
structure learning algorithms under different assumptions of data noise. The
results suggest that traditional synthetic performance may overestimate
real-world performance by anywhere between 10% and more than 50%. They also
show that while score-based learning is generally superior to constraint-based
learning, a higher fitting score does not necessarily imply a more accurate
causal graph. To facilitate comparisons with future studies, we have made all
data, raw results, graphs and BN models freely available online.
- Abstract(参考訳): 過去数十年間、多くのベイズネットワーク(BN)構造学習アルゴリズムが文献で提案されてきた。
各出版物は、その出版物で提案されたアルゴリズムについて経験的または理論的に論証し、研究全体にわたる結果は、どのアルゴリズムが「最良の」かという主張に矛盾することが多い。
これは、その効果を決定するための合意された評価アプローチがないためでもある。
さらに、各アルゴリズムは、完全なデータや因果正当性といった一連の仮定に基づいており、これらの仮定に適合するデータで評価される傾向があるが、これらの仮定は現実的ではないかもしれない。
その結果、合成性能が実際の性能を過大評価していると広く受け入れられているが、この結果がどの程度起こるかは定かではない。
本稿では,15個の構造学習アルゴリズムの性能について検討する。
本研究では,合成雑音を組み込んだデータにアルゴリズムを適用する手法を提案し,実データに適用した場合の構造学習アルゴリズムの性能をよりよく理解する。
各アルゴリズムは、複数のケーススタディ、サンプルサイズ、ノイズの種類、および複数の評価基準で評価される。
この作業には約10,000のグラフと7ヶ月の総構造学習ランタイムが含まれていた。
データノイズの異なる仮定の下でBN構造学習アルゴリズムの大規模な検証を行う。
その結果,従来の合成性能は実世界の性能を10%以上50%以上過大評価する可能性が示唆された。
また、スコアベースの学習は一般に制約ベースの学習よりも優れているが、より高い適合度スコアは必ずしもより正確な因果グラフを意味するとは限らない。
今後の研究では,全てのデータ,生結果,グラフ,BNモデルをオンラインで自由に利用できるようにした。
関連論文リスト
- Classic algorithms are fair learners: Classification Analysis of natural
weather and wildfire occurrences [0.0]
本稿では,決定木,ブースティング,サポートベクトルマシン,k-nearest Neighbors,浅部ニューラルネットワークなど,広く使われている古典的教師あり学習アルゴリズムの実証機能について概説する。
論文 参考訳(メタデータ) (2023-09-04T06:11:55Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - TrueDeep: A systematic approach of crack detection with less data [0.0]
ドメイン知識をディープラーニングアーキテクチャと組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示す。
我々のアルゴリズムは、全データの23%で開発され、テストデータ上でも同様の性能を持ち、複数の盲点データセット上では大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-05-30T14:51:58Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - A Framework and Benchmarking Study for Counterfactual Generating Methods
on Tabular Data [0.0]
カウンターファクトな説明は、機械学習の予測を説明する効果的な方法と見なされる。
このような説明を導き出そうとするアルゴリズムは、すでに数十ある。
ベンチマーク研究とフレームワークは、実践者がどのテクニックとビルディングブロックが最も適しているかを決定するのに役立ちます。
論文 参考訳(メタデータ) (2021-07-09T21:06:03Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Improving Bayesian Network Structure Learning in the Presence of
Measurement Error [11.103936437655575]
本稿では,構造学習アルゴリズムの最後に付加的な学習フェーズとして加えることができるアルゴリズムについて述べる。
提案アルゴリズムは、4つの確立された構造学習アルゴリズムのグラフィカルスコアの改善に成功している。
論文 参考訳(メタデータ) (2020-11-19T11:27:47Z) - A Constraint-Based Algorithm for the Structural Learning of
Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。
我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文 参考訳(メタデータ) (2020-07-07T07:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。