論文の概要: Discovering Frequent Gradual Itemsets with Imprecise Data
- arxiv url: http://arxiv.org/abs/2005.11045v1
- Date: Fri, 22 May 2020 08:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:32:12.181696
- Title: Discovering Frequent Gradual Itemsets with Imprecise Data
- Title(参考訳): 不正確なデータによる頻繁な経時的項目集合の発見
- Authors: Micha\"el Chirmeni Boujike, Jerry Lonlac, Norbert Tsopze, Engelbert
Mephu Nguifo
- Abstract要約: The more/less X, The more/less Y" という形式の属性の複雑な共変分をモデル化する段階的なパターンは、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
本稿では,増加または減少を考慮した漸進性しきい値を導入することを提案する。
- 参考スコア(独自算出の注目度): 0.4874780144224056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gradual patterns that model the complex co-variations of attributes of
the form "The more/less X, The more/less Y" play a crucial role in many real
world applications where the amount of numerical data to manage is important,
this is the biological data. Recently, these types of patterns have caught the
attention of the data mining community, where several methods have been defined
to automatically extract and manage these patterns from different data models.
However, these methods are often faced the problem of managing the quantity of
mined patterns, and in many practical applications, the calculation of all
these patterns can prove to be intractable for the user-defined frequency
threshold and the lack of focus leads to generating huge collections of
patterns. Moreover another problem with the traditional approaches is that the
concept of gradualness is defined just as an increase or a decrease. Indeed, a
gradualness is considered as soon as the values of the attribute on both
objects are different. As a result, numerous quantities of patterns extracted
by traditional algorithms can be presented to the user although their
gradualness is only a noise effect in the data. To address this issue, this
paper suggests to introduce the gradualness thresholds from which to consider
an increase or a decrease. In contrast to literature approaches, the proposed
approach takes into account the distribution of attribute values, as well as
the user's preferences on the gradualness threshold and makes it possible to
extract gradual patterns on certain databases where literature approaches fail
due to too large search space. Moreover, results from an experimental
evaluation on real databases show that the proposed algorithm is scalable,
efficient, and can eliminate numerous patterns that do not verify specific
gradualness requirements to show a small set of patterns to the user.
- Abstract(参考訳): The more/less X, The more/less Y" という形式の属性の複雑な共変分をモデル化する段階的パターンは、管理する数値データが重要である多くの実世界のアプリケーションにおいて重要な役割を果たす。
最近、これらのパターンはデータマイニングコミュニティの注目を集めており、異なるデータモデルからパターンを自動的に抽出し管理するためのいくつかの方法が定義されている。
しかし、これらの手法は、しばしば採掘されたパターンの量を管理する問題に直面しており、多くの実践的応用において、これらのパターンの計算は、ユーザ定義の周波数閾値に対して難解であることが証明され、焦点の欠如によって大量のパターンが生成される。
さらに、従来のアプローチの別の問題は、漸進性の概念が増加または減少として定義されることである。
実際、両方のオブジェクトの属性の値が異なると、漸進性が考慮される。
その結果、従来のアルゴリズムによって抽出された多くのパターンがユーザに提示されるが、その漸進性はデータのノイズ効果に過ぎない。
この問題に対処するため,本稿では,増加や減少を考えるための漸進性閾値を導入することを提案する。
文献的アプローチとは対照的に,提案手法では,属性値の分布やユーザの選好を漸進性閾値で考慮し,検索空間が大きすぎるために文学的アプローチが失敗している特定のデータベース上で段階的パターンを抽出することができる。
さらに, 実データベースを用いた実験結果から, 提案アルゴリズムはスケーラブルで効率的であり, ユーザに対して少量のパターンを示すために, 特定の漸進性要件を検証しない多数のパターンを排除できることが示唆された。
関連論文リスト
- Latent variable model for high-dimensional point process with structured
missingness [0.0]
縦断データは医療、社会学、地震学など多くの分野で重要である。
実世界のデータセットは高次元であり、構造化された欠陥パターンを含み、測定時間ポイントは未知のプロセスによって管理される。
これらの制限に対処可能な、柔軟で効率的な潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2024-02-08T15:41:48Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Extracting Seasonal Gradual Patterns from Temporal Sequence Data Using
Periodic Patterns Mining [0.0]
季節的段階的パターンは「Xが増加/減少するとYが増加/減少する」という形で複雑な属性の共変を捉える
多くの時系列データにおいて、同じ時間間隔で定期的に現れる漸進的なパターンを抽出する手法は提案されていない。
本稿では,複数のシークエンスに共通する周期的パターンのマイニングに基づく抽出手法を提案する。
論文 参考訳(メタデータ) (2020-10-20T14:03:37Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。