論文の概要: Explaining Categorical Feature Interactions Using Graph Covariance and LLMs
- arxiv url: http://arxiv.org/abs/2501.14932v1
- Date: Fri, 24 Jan 2025 21:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:20.064148
- Title: Explaining Categorical Feature Interactions Using Graph Covariance and LLMs
- Title(参考訳): グラフ共分散とLLMを用いたカテゴリー的特徴相互作用の解説
- Authors: Cencheng Shen, Darren Edge, Jonathan Larson, Carey E. Priebe,
- Abstract要約: 本稿では,Counter Trafficking Data Collaborativeからのグローバルな合成データセットに焦点を当てる。
2002年から2022年にかけて20,000件以上の匿名化された記録があり、それぞれのレコードに多くの分類学的特徴がある。
本稿では,重要な分類的特徴の相互作用を分析し,抽出するための高速でスケーラブルな手法を提案する。
- 参考スコア(独自算出の注目度): 18.44675735926458
- License:
- Abstract: Modern datasets often consist of numerous samples with abundant features and associated timestamps. Analyzing such datasets to uncover underlying events typically requires complex statistical methods and substantial domain expertise. A notable example, and the primary data focus of this paper, is the global synthetic dataset from the Counter Trafficking Data Collaborative (CTDC) -- a global hub of human trafficking data containing over 200,000 anonymized records spanning from 2002 to 2022, with numerous categorical features for each record. In this paper, we propose a fast and scalable method for analyzing and extracting significant categorical feature interactions, and querying large language models (LLMs) to generate data-driven insights that explain these interactions. Our approach begins with a binarization step for categorical features using one-hot encoding, followed by the computation of graph covariance at each time. This graph covariance quantifies temporal changes in dependence structures within categorical data and is established as a consistent dependence measure under the Bernoulli distribution. We use this measure to identify significant feature pairs, such as those with the most frequent trends over time or those exhibiting sudden spikes in dependence at specific moments. These extracted feature pairs, along with their timestamps, are subsequently passed to an LLM tasked with generating potential explanations of the underlying events driving these dependence changes. The effectiveness of our method is demonstrated through extensive simulations, and its application to the CTDC dataset reveals meaningful feature pairs and potential data stories underlying the observed feature interactions.
- Abstract(参考訳): 現代のデータセットは、豊富な特徴と関連するタイムスタンプを持つ多数のサンプルで構成されていることが多い。
このようなデータセットを分析して、基礎となるイベントを明らかにするには、通常、複雑な統計手法と実質的なドメインの専門知識が必要である。
注目すべき例として、2002年から2022年までの20万件以上の匿名化されたデータを含む、人身売買データのグローバルハブであるCTDC(Counter Trafficking Data Collaborative)からの、グローバルな合成データセットがある。
本稿では,大規模言語モデル (LLM) を問合せして,これらの相互作用を説明する,高速でスケーラブルな手法を提案する。
提案手法は,1ホット符号化を用いて分類的特徴を分類する二項化ステップから始まり,次にグラフ共分散の計算を行う。
このグラフの共分散は、カテゴリーデータ内の依存構造における時間的変化を定量化し、ベルヌーイ分布の下で一貫した依存度として確立される。
この尺度は、時間とともに最も頻繁な傾向を示すものや、特定の瞬間に突然の急激な依存を示すものなど、重要な特徴ペアを特定するために使用します。
これらの抽出された特徴対は、そのタイムスタンプとともに、これらの依存変化を駆動する基礎となる事象の潜在的な説明を生成することを任務とするLLMに渡される。
提案手法の有効性は広範囲なシミュレーションにより実証され,CTDCデータセットへの適用により,観測された特徴相互作用の基盤となる有意義な特徴対と潜在的なデータストーリーが明らかになった。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Coupled Attention Networks for Multivariate Time Series Anomaly
Detection [10.620044922371177]
多変量時系列データにおける異常検出のためのアテンションベースニューラルネットワークフレームワーク(CAN)を提案する。
センサ間の関係と時間的依存関係をキャプチャするために、グローバルローカルグラフに基づく畳み込みニューラルネットワークを時間的自己認識モジュールに統合する。
論文 参考訳(メタデータ) (2023-06-12T13:42:56Z) - Dynamic Relation Discovery and Utilization in Multi-Entity Time Series
Forecasting [92.32415130188046]
多くの現実世界のシナリオでは、実体の間に決定的かつ暗黙的な関係が存在する可能性がある。
本稿では,自動グラフ学習(A2GNN)を用いたマルチグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-18T11:37:04Z) - PIETS: Parallelised Irregularity Encoders for Forecasting with
Heterogeneous Time-Series [5.911865723926626]
マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。
本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。
PIETSは異種時間データを効果的にモデル化し、予測タスクにおける他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-30T20:01:19Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - Mining Feature Relationships in Data [0.0]
特徴関係マイニング(FRM)は、データの連続的または分類的特徴間の象徴的関係を自動的に発見する遺伝的プログラミング手法である。
提案手法は,特徴間の関係を明確に発見することを目的とした,最初の象徴的アプローチである。
実世界の様々なデータセットに対する実証テストにより、提案手法は高品質で単純な特徴関係を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-02-02T07:06:16Z) - Connecting the Dots: Multivariate Time Series Forecasting with Graph
Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。
グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。
提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2020-05-24T04:02:18Z) - Modeling Rare Interactions in Time Series Data Through Qualitative
Change: Application to Outcome Prediction in Intensive Care Units [1.0349800230036503]
本稿では,高次元時系列データから得られる結果の最も高い確率で相互作用を明らかにするためのモデルを提案する。
小さな相互作用の類似テンプレートが結果に寄与するという仮定を用いて、探索タスクを再構成し、データから最も類似したテンプレートを検索する。
論文 参考訳(メタデータ) (2020-04-03T08:49:40Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。