論文の概要: $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery
- arxiv url: http://arxiv.org/abs/2306.10816v1
- Date: Mon, 19 Jun 2023 10:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:17:05.600754
- Title: $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery
- Title(参考訳): $\texttt{causalAssembly}$: ベンチマークによる因果発見のための実運用データの生成
- Authors: Konstantin G\"obler, Tobias Windisch, Tim Pychynski, Steffen Sonntag,
Martin Roth, Mathias Drton
- Abstract要約: 我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
- 参考スコア(独自算出の注目度): 2.2509387878255818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms for causal discovery have recently undergone rapid advances and
increasingly draw on flexible nonparametric methods to process complex data.
With these advances comes a need for adequate empirical validation of the
causal relationships learned by different algorithms. However, for most real
data sources true causal relations remain unknown. This issue is further
compounded by privacy concerns surrounding the release of suitable high-quality
data. To help address these challenges, we gather a complex dataset comprising
measurements from an assembly line in a manufacturing context. This line
consists of numerous physical processes for which we are able to provide ground
truth causal relationships on the basis of a detailed study of the underlying
physics. We use the assembly line data and associated ground truth information
to build a system for generation of semisynthetic manufacturing data that
supports benchmarking of causal discovery methods. To accomplish this, we
employ distributional random forests in order to flexibly estimate and
represent conditional distributions that may be combined into joint
distributions that strictly adhere to a causal model over the observed
variables. The estimated conditionals and tools for data generation are made
available in our Python library $\texttt{causalAssembly}$. Using the library,
we showcase how to benchmark several well-known causal discovery algorithms.
- Abstract(参考訳): 因果発見のためのアルゴリズムは、最近急速に進歩し、複雑なデータを処理するためのフレキシブルな非パラメトリックな手法に着目している。
これらの進歩により、異なるアルゴリズムによって学習された因果関係の適切な実証的検証が必要となる。
しかし、ほとんどの実データソースでは真の因果関係は不明である。
この問題は、適切な高品質データのリリースに関するプライバシーの懸念によってさらに複雑になっている。
これらの課題に対処するのに役立ち、製造コンテキストのアセンブリラインから測定値を含む複雑なデータセットを収集する。
この線は、基礎となる物理学の詳細な研究に基づいて、基礎となる真理の因果関係を提供できる多くの物理過程からなる。
我々は,集合線データと関連する基底真理情報を用いて,因果発見手法のベンチマークを支援する半合成的製造データを生成するシステムを構築する。
これを実現するために,我々は,観測変数の因果モデルに厳密に固執する連接分布に組み合わさった条件分布を柔軟に推定し,表現するために分布ランダム林を用いる。
データ生成のための推定条件とツールは、Pythonライブラリ $\texttt{causalAssembly}$で利用可能です。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Discovering Mixtures of Structural Causal Models from Time Series Data [23.18511951330646]
基礎となる因果モデルを推測するために, MCD と呼ばれる一般的な変分推論に基づくフレームワークを提案する。
このアプローチでは、データ可能性のエビデンス-ローバウンドを最大化するエンドツーエンドのトレーニングプロセスを採用しています。
本研究では,本手法が因果発見タスクにおける最先端のベンチマークを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-10T05:13:10Z) - Salesforce CausalAI Library: A Fast and Scalable Framework for Causal
Analysis of Time Series and Tabular Data [76.85310770921876]
観測データを用いた因果解析のためのオープンソースライブラリであるSalesforce CausalAI Libraryを紹介した。
このライブラリの目標は、因果関係の領域における様々な問題に対して、迅速かつ柔軟なソリューションを提供することである。
論文 参考訳(メタデータ) (2023-01-25T22:42:48Z) - Boosting Synthetic Data Generation with Effective Nonlinear Causal
Discovery [11.81479419498206]
ソフトウェアテスト、データプライバシ、不均衡学習、人工知能の説明では、もっともらしいデータサンプルを生成することが不可欠である。
データ生成に広く使用されるアプローチの一般的な前提は、機能の独立性である。
本稿では,変数間の非線形因果関係を発見し,生成時に利用する合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T10:54:06Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Iterative Rule Extension for Logic Analysis of Data: an MILP-based
heuristic to derive interpretable binary classification from large datasets [0.6526824510982799]
この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。
その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができることがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:31:30Z) - Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks [7.232789848964222]
因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2021-04-21T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。