論文の概要: CIPCaD-Bench: Continuous Industrial Process datasets for benchmarking
Causal Discovery methods
- arxiv url: http://arxiv.org/abs/2208.01529v1
- Date: Tue, 2 Aug 2022 15:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:58:15.990464
- Title: CIPCaD-Bench: Continuous Industrial Process datasets for benchmarking
Causal Discovery methods
- Title(参考訳): CIPCaD-Bench:因果探索法ベンチマークのための連続産業プロセスデータセット
- Authors: Giovanni Menegozzo, Diego Dall'Alba, Paolo Fiorini
- Abstract要約: 因果関係は製造工程で調査され、断層調査を支援し、介入を行い、戦略的決定を行う。
業界 4.0 はデータ駆動因果発見 (CD) を可能にするデータ量を増やした。
本研究は、連続製造プロセスにおけるCDのための2つの新しいパブリックデータセットを紹介する。
- 参考スコア(独自算出の注目度): 2.7071541526963805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Causal relationships are commonly examined in manufacturing processes to
support faults investigations, perform interventions, and make strategic
decisions. Industry 4.0 has made available an increasing amount of data that
enable data-driven Causal Discovery (CD). Considering the growing number of
recently proposed CD methods, it is necessary to introduce strict benchmarking
procedures on publicly available datasets since they represent the foundation
for a fair comparison and validation of different methods. This work introduces
two novel public datasets for CD in continuous manufacturing processes. The
first dataset employs the well-known Tennessee Eastman simulator for fault
detection and process control. The second dataset is extracted from an
ultra-processed food manufacturing plant, and it includes a description of the
plant, as well as multiple ground truths. These datasets are used to propose a
benchmarking procedure based on different metrics and evaluated on a wide
selection of CD algorithms. This work allows testing CD methods in realistic
conditions enabling the selection of the most suitable method for specific
target applications. The datasets are available at the following link:
https://github.com/giovanniMen
- Abstract(参考訳): 因果関係は、断層調査を支援し、介入を行い、戦略的決定を下すために、製造プロセスにおいてよく検討される。
業界 4.0 はデータ駆動の因果発見(CD)を可能にするデータ量を増やした。
近年提案されているCD手法が増えていることを考えると、異なる手法の公正な比較と検証の基礎となるため、公開データセットに厳密なベンチマーク手順を導入する必要がある。
本研究は, 連続製造プロセスにおけるcdの公開データセットを2つ導入する。
最初のデータセットは、有名なテネシー・イーストマンシミュレータを使って断層検出とプロセス制御を行っている。
第2のデータセットは、超加工食品製造プラントから抽出され、植物の説明と複数の地上の真実を含む。
これらのデータセットは、異なるメトリクスに基づくベンチマーク手順を提案し、幅広いcdアルゴリズムに基づいて評価される。
この作業により、特定のターゲットアプリケーションに適した方法を選択することができる現実の環境でcdメソッドをテストすることができる。
データセットは以下のリンクで利用可能である。
関連論文リスト
- Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the
Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。
我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。
dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文 参考訳(メタデータ) (2023-09-07T15:05:35Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - Direct Diffusion Bridge using Data Consistency for Inverse Problems [65.04689839117692]
拡散モデルに基づく逆問題解法は優れた性能を示したが、速度は制限されている。
いくつかの最近の研究は、拡散プロセスを構築し、クリーンで破損したものを直接ブリッジすることでこの問題を緩和しようと試みている。
微調整を必要とせずにデータの一貫性を強制する改良された推論手順を提案する。
論文 参考訳(メタデータ) (2023-05-31T12:51:10Z) - Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors [16.79939549201032]
データの独立性及び特定分散性(IID)を前提とした仮定違反を, 直接統計的に検出する手法を提案する。
考慮された特定の違反形態は、現実世界のアプリケーションに共通している。
我々のアプローチは、より多くの種類のデータに適用可能であり、また、実際に広範囲のIID違反を検出することができる。
論文 参考訳(メタデータ) (2023-05-25T04:05:09Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。