論文の概要: Unsupervised detection of semantic correlations in big data
- arxiv url: http://arxiv.org/abs/2411.02126v1
- Date: Mon, 04 Nov 2024 14:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:00.442445
- Title: Unsupervised detection of semantic correlations in big data
- Title(参考訳): ビッグデータにおける意味的相関の教師なし検出
- Authors: Santiago Acevedo, Alex Rodriguez, Alessandro Laio,
- Abstract要約: 本稿では,2進数として表される高次元データにおける意味的相関を検出する手法を提案する。
本研究では,データ記述に必要な独立座標の最小個数を定量化するデータセットの2値固有次元を推定する。
提案アルゴリズムは, いわゆる次元の呪いとは無関係であり, ビッグデータ解析に利用することができる。
- 参考スコア(独自算出の注目度): 47.201377047286215
- License:
- Abstract: In real-world data, information is stored in extremely large feature vectors. These variables are typically correlated due to complex interactions involving many features simultaneously. Such correlations qualitatively correspond to semantic roles and are naturally recognized by both the human brain and artificial neural networks. This recognition enables, for instance, the prediction of missing parts of an image or text based on their context. We present a method to detect these correlations in high-dimensional data represented as binary numbers. We estimate the binary intrinsic dimension of a dataset, which quantifies the minimum number of independent coordinates needed to describe the data, and is therefore a proxy of semantic complexity. The proposed algorithm is largely insensitive to the so-called curse of dimensionality, and can therefore be used in big data analysis. We test this approach identifying phase transitions in model magnetic systems and we then apply it to the detection of semantic correlations of images and text inside deep neural networks.
- Abstract(参考訳): 現実世界のデータでは、情報は極めて大きな特徴ベクトルに格納される。
これらの変数は典型的には、多くの特徴を同時に含む複雑な相互作用によって相関する。
このような相関関係は意味的役割と定性的に対応し、人間の脳と人工ニューラルネットワークの両方で自然に認識される。
この認識は、例えば、コンテキストに基づいて画像やテキストの欠落部分の予測を可能にする。
本稿では,2進数として表される高次元データにおいて,これらの相関を検出する手法を提案する。
本研究では,データ記述に必要な独立座標の最小個数を定量化し,意味的複雑性の代用となるデータセットの2値固有次元を推定する。
提案アルゴリズムは, いわゆる次元の呪いとは無関係であり, ビッグデータ解析に利用することができる。
モデル磁気系の位相遷移を同定し,それを深層ニューラルネットワーク内の画像とテキストの意味的相関の検出に適用する。
関連論文リスト
- How compositional generalization and creativity improve as diffusion models are trained [82.08869888944324]
生成モデルでは、多くの新しいデータを生成するために、構成規則を学習する必要があるサンプルはいくつありますか?
言語や画像などのデータ構造を表現するために,木のようなグラフィカルモデルを用いて,単純な文脈自由文法に基づいて学習した拡散モデルを考察する。
拡散モデルは,統計学的に類似したコンテキストを持つクラスタリング機能に必要なサンプル複雑度で構成規則を学習する。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Explaining Categorical Feature Interactions Using Graph Covariance and LLMs [18.44675735926458]
本稿では,Counter Trafficking Data Collaborativeからのグローバルな合成データセットに焦点を当てる。
2002年から2022年にかけて20,000件以上の匿名化された記録があり、それぞれのレコードに多くの分類学的特徴がある。
本稿では,重要な分類的特徴の相互作用を分析し,抽出するための高速でスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T21:41:26Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Graph Neural Network-Based Anomaly Detection in Multivariate Time Series [17.414474298706416]
我々は,高次元時系列データにおける異常を検出する新しい方法を開発した。
我々のアプローチは、構造学習アプローチとグラフニューラルネットワークを組み合わせている。
本研究では,本手法がベースラインアプローチよりも高精度に異常を検出することを示す。
論文 参考訳(メタデータ) (2021-06-13T09:07:30Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena [17.205106391379026]
ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
論文 参考訳(メタデータ) (2020-03-23T20:09:31Z) - Correlation-aware Deep Generative Model for Unsupervised Anomaly
Detection [9.578395294627057]
教師なし異常検出は、高度に複雑で非構造的なデータから異常なサンプルを特定することを目的としている。
本稿では,Deep Gaussian Mixture Model (CADGMM) を用いた教師なし異常検出手法を提案する。
実世界のデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-18T03:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。