論文の概要: Unsupervised detection of semantic correlations in big data
- arxiv url: http://arxiv.org/abs/2411.02126v1
- Date: Mon, 04 Nov 2024 14:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:00.442445
- Title: Unsupervised detection of semantic correlations in big data
- Title(参考訳): ビッグデータにおける意味的相関の教師なし検出
- Authors: Santiago Acevedo, Alex Rodriguez, Alessandro Laio,
- Abstract要約: 本稿では,2進数として表される高次元データにおける意味的相関を検出する手法を提案する。
本研究では,データ記述に必要な独立座標の最小個数を定量化するデータセットの2値固有次元を推定する。
提案アルゴリズムは, いわゆる次元の呪いとは無関係であり, ビッグデータ解析に利用することができる。
- 参考スコア(独自算出の注目度): 47.201377047286215
- License:
- Abstract: In real-world data, information is stored in extremely large feature vectors. These variables are typically correlated due to complex interactions involving many features simultaneously. Such correlations qualitatively correspond to semantic roles and are naturally recognized by both the human brain and artificial neural networks. This recognition enables, for instance, the prediction of missing parts of an image or text based on their context. We present a method to detect these correlations in high-dimensional data represented as binary numbers. We estimate the binary intrinsic dimension of a dataset, which quantifies the minimum number of independent coordinates needed to describe the data, and is therefore a proxy of semantic complexity. The proposed algorithm is largely insensitive to the so-called curse of dimensionality, and can therefore be used in big data analysis. We test this approach identifying phase transitions in model magnetic systems and we then apply it to the detection of semantic correlations of images and text inside deep neural networks.
- Abstract(参考訳): 現実世界のデータでは、情報は極めて大きな特徴ベクトルに格納される。
これらの変数は典型的には、多くの特徴を同時に含む複雑な相互作用によって相関する。
このような相関関係は意味的役割と定性的に対応し、人間の脳と人工ニューラルネットワークの両方で自然に認識される。
この認識は、例えば、コンテキストに基づいて画像やテキストの欠落部分の予測を可能にする。
本稿では,2進数として表される高次元データにおいて,これらの相関を検出する手法を提案する。
本研究では,データ記述に必要な独立座標の最小個数を定量化し,意味的複雑性の代用となるデータセットの2値固有次元を推定する。
提案アルゴリズムは, いわゆる次元の呪いとは無関係であり, ビッグデータ解析に利用することができる。
モデル磁気系の位相遷移を同定し,それを深層ニューラルネットワーク内の画像とテキストの意味的相関の検出に適用する。
関連論文リスト
- Memorization with neural nets: going beyond the worst case [5.662924503089369]
実際には、ディープニューラルネットワークはトレーニングデータを簡単に補間できることが多い。
しかし、実世界のデータについては、暗記能力によって提案されるよりもネットワークサイズが小さいような良質な構造の存在を直感的に期待する。
2つのクラスを持つ固定有限データセットを与えられた場合、高い確率で3層ニューラルネットワークを時間内に補間する単純なランダム化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-30T10:06:05Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Graph Neural Network-Based Anomaly Detection in Multivariate Time Series [17.414474298706416]
我々は,高次元時系列データにおける異常を検出する新しい方法を開発した。
我々のアプローチは、構造学習アプローチとグラフニューラルネットワークを組み合わせている。
本研究では,本手法がベースラインアプローチよりも高精度に異常を検出することを示す。
論文 参考訳(メタデータ) (2021-06-13T09:07:30Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena [17.205106391379026]
ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
論文 参考訳(メタデータ) (2020-03-23T20:09:31Z) - Correlation-aware Deep Generative Model for Unsupervised Anomaly
Detection [9.578395294627057]
教師なし異常検出は、高度に複雑で非構造的なデータから異常なサンプルを特定することを目的としている。
本稿では,Deep Gaussian Mixture Model (CADGMM) を用いた教師なし異常検出手法を提案する。
実世界のデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-18T03:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。