論文の概要: Discovering Association Rules in High-Dimensional Small Tabular Data
- arxiv url: http://arxiv.org/abs/2509.20113v1
- Date: Wed, 24 Sep 2025 13:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.828725
- Title: Discovering Association Rules in High-Dimensional Small Tabular Data
- Title(参考訳): 高次元小語彙データにおけるアソシエーション規則の発見
- Authors: Erkan Karabulut, Daniel Daza, Paul Groth, Victoria Degeler,
- Abstract要約: Association Rule Miningは、命題ルールの形式でデータセットの特徴間のパターンを見つけることを目的としている。
高次元設定では、ルールの爆発と計算オーバーヘッドにより、一般的なアルゴリズムのアプローチは実用的ではない。
Aerial+のようなニューロシンボリックな手法は、最近ARMの規則の爆発に対処するために提案されている。
- 参考スコア(独自算出の注目度): 3.362375485129425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Association Rule Mining (ARM) aims to discover patterns between features in datasets in the form of propositional rules, supporting both knowledge discovery and interpretable machine learning in high-stakes decision-making. However, in high-dimensional settings, rule explosion and computational overhead render popular algorithmic approaches impractical without effective search space reduction, challenges that propagate to downstream tasks. Neurosymbolic methods, such as Aerial+, have recently been proposed to address the rule explosion in ARM. While they tackle the high dimensionality of the data, they also inherit limitations of neural networks, particularly reduced performance in low-data regimes. This paper makes three key contributions to association rule discovery in high-dimensional tabular data. First, we empirically show that Aerial+ scales one to two orders of magnitude better than state-of-the-art algorithmic and neurosymbolic baselines across five real-world datasets. Second, we introduce the novel problem of ARM in high-dimensional, low-data settings, such as gene expression data from the biomedicine domain with around 18k features and 50 samples. Third, we propose two fine-tuning approaches to Aerial+ using tabular foundation models. Our proposed approaches are shown to significantly improve rule quality on five real-world datasets, demonstrating their effectiveness in low-data, high-dimensional scenarios.
- Abstract(参考訳): Association Rule Mining(ARM)は、命題ルールの形式でデータセットの特徴間のパターンを発見し、高度な意思決定における知識発見と解釈可能な機械学習の両方をサポートすることを目的としている。
しかし、高次元の設定では、ルールの爆発と計算オーバーヘッドは、効率的な検索スペースの削減なしに、一般的なアルゴリズムアプローチを非現実的にレンダリングし、下流のタスクに伝播する課題である。
Aerial+のようなニューロシンボリックな手法は、最近ARMの規則の爆発に対処するために提案されている。
彼らは、データの高次元性に取り組む一方で、ニューラルネットワークの制限、特に低データのレシエーションにおけるパフォーマンスの低下を継承する。
本稿では,高次元表データにおける相関規則の発見に3つの重要な貢献をする。
まず、Aerial+は5つの実世界のデータセットにまたがる最先端のアルゴリズムとニューロシンボリックのベースラインよりも1~2桁のスケールが優れていることを実証的に示す。
第2に、約18kの特徴と50個のサンプルを持つバイオメディシンドメインからの遺伝子発現データなど、高次元、低データ設定におけるARMの新たな問題を紹介する。
第3に,表層基礎モデルを用いたAerial+の微調整手法を2つ提案する。
提案手法は,5つの実世界のデータセットにおけるルール品質を著しく改善し,低データ・高次元シナリオにおけるルール品質の有効性を実証する。
関連論文リスト
- RefiDiff: Refinement-Aware Diffusion for Efficient Missing Data Imputation [13.401822039640297]
高次元混合型データセットの欠落値は、データ計算に重大な課題をもたらす。
本稿では,ローカルな機械学習予測と,新しいマンバベースの認知ネットワークを組み合わせた,革新的なフレームワークRefiDiffを提案する。
RefiDiffは、DDPMベースのアプローチよりも4倍高速なトレーニング時間で、不足値設定でステート・ザ・アート(SOTA)メソッドをパフォーマンスします。
論文 参考訳(メタデータ) (2025-05-20T14:51:07Z) - Neurosymbolic Association Rule Mining from Tabular Data [1.3886978730184498]
アソシエーションルールマイニング(アソシエーションルールマイニング、アソシエーションルールマイニング)は、論理ルールの形式でデータ特徴間のパターンをマイニングするタスクである。
Aerial+は、データのニューラル表現を生成し、特徴間の関連をキャプチャする、新しいニューロシンボリックARMメソッドである。
モデルの再構成機構を利用して、このニューラル表現からルールを抽出する。
論文 参考訳(メタデータ) (2025-04-27T20:43:33Z) - ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - DEMAND: Deep Matrix Approximately NonlinearDecomposition to Identify
Meta, Canonical, and Sub-Spatial Pattern of functional Magnetic Resonance
Imaging in the Human Brain [8.93274096260726]
本研究では,SDL(Sparse Dictionary Learning)やDNN(Deep Neural Networks)といった浅い線形モデルを活用するために,Deep A roughly Decomposition(DEMAND)という新しい非線形行列分解法を提案する。
DEMANDは、人間の脳の再現可能な代謝、正準的、および部分空間的特徴を、他の仲間の方法論よりも効率的に明らかにすることができる。
論文 参考訳(メタデータ) (2022-05-20T15:55:01Z) - Deep Recursive Embedding for High-Dimensional Data [9.611123249318126]
本稿では,DNN(Deep Neural Network)と高次元データ埋め込みのための数学誘導埋め込みルールを組み合わせることを提案する。
本稿では,高次元空間から低次元空間へのパラメトリックマッピングを学習可能な汎用ディープ埋め込みネットワーク(DEN)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-31T23:22:33Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。