論文の概要: Extracting the main trend in a dataset: the Sequencer algorithm
- arxiv url: http://arxiv.org/abs/2006.13948v1
- Date: Wed, 24 Jun 2020 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 10:09:02.611687
- Title: Extracting the main trend in a dataset: the Sequencer algorithm
- Title(参考訳): データセットにおける主要なトレンドの抽出:シーケンサーアルゴリズム
- Authors: Dalya Baron and Brice M\'enard
- Abstract要約: 一次元の傾向は、しばしば列と呼ばれ、単純な現象についての洞察を与える。
本稿では,データセットの主なトレンドを汎用的に識別するアルゴリズムであるSequencerを提案する。
多くのケースにおいて、一般的なt-SNEおよびUMAP次元減少技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientists aim to extract simplicity from observations of the complex world.
An important component of this process is the exploration of data in search of
trends. In practice, however, this tends to be more of an art than a science.
Among all trends existing in the natural world, one-dimensional trends, often
called sequences, are of particular interest as they provide insights into
simple phenomena. However, some are challenging to detect as they may be
expressed in complex manners. We present the Sequencer, an algorithm designed
to generically identify the main trend in a dataset. It does so by constructing
graphs describing the similarities between pairs of observations, computed with
a set of metrics and scales. Using the fact that continuous trends lead to more
elongated graphs, the algorithm can identify which aspects of the data are
relevant in establishing a global sequence. Such an approach can be used beyond
the proposed algorithm and can optimize the parameters of any dimensionality
reduction technique. We demonstrate the power of the Sequencer using real-world
data from astronomy, geology as well as images from the natural world. We show
that, in a number of cases, it outperforms the popular t-SNE and UMAP
dimensionality reduction techniques. This approach to exploratory data
analysis, which does not rely on training nor tuning of any parameter, has the
potential to enable discoveries in a wide range of scientific domains. The
source code is available on github and we provide an online interface at
\url{http://sequencer.org}.
- Abstract(参考訳): 科学者は複雑な世界の観測からシンプルさを抽出することを目指している。
このプロセスの重要な構成要素は、トレンドを探索するデータの探索である。
しかし実際には、これは科学というよりもむしろ芸術である傾向がある。
自然界に存在するすべてのトレンドの中で、1次元の傾向は、しばしばシーケンスと呼ばれ、単純な現象に対する洞察を提供するため、特に興味深い。
しかし、複雑な方法で表現される可能性があるため、検出が難しいものもある。
本稿では,データセットの主なトレンドを汎用的に識別するアルゴリズムであるSequencerを提案する。
これは、一連のメトリクスとスケールで計算された観測のペア間の類似性を記述するグラフを構築することで実現される。
連続的なトレンドがより長いグラフに繋がるという事実を利用して、アルゴリズムはデータのどの側面がグローバルシーケンスを確立するのに関係しているかを特定できる。
このような手法は提案アルゴリズムを超えて利用することができ、任意の次元削減手法のパラメータを最適化することができる。
我々は、天文学、地質学、および自然界の画像からの実世界データを用いて、Sequencerのパワーを実証する。
多くのケースにおいて、一般的なt-SNEおよびUMAP次元減少技術よりも優れていることを示す。
探索的データ分析へのこのアプローチは、いかなるパラメータのトレーニングやチューニングにも依存せず、幅広い科学的領域での発見を可能にする可能性がある。
ソースコードはgithubで公開されており、オンラインインターフェースは \url{http://sequencer.org} で提供しています。
関連論文リスト
- Range-aware Positional Encoding via High-order Pretraining: Theory and Practice [14.521929085104441]
大量のグラフデータに対する教師なし事前トレーニングは、ラベル付きデータが制限された実世界のアプリケーションでは不可欠である。
本稿では,多解像度構造情報をモデル化することに焦点を当てたグラフの事前学習戦略を提案する。
このアプローチはグラフ構造にのみ依存するが、ドメインに依存しず、さまざまなドメインのデータセットに適応可能である。
論文 参考訳(メタデータ) (2024-09-27T19:53:10Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Scoring Anomalous Vertices Through Quantum Walks [0.26013878609420266]
ラベルなしデータの場合、グラフ上の異常検出は、どのデータポイントが他のほとんどのデータに存在する潜在特性に当てはまらないかを決定する方法である。
グラフを全ノードの均一な開始位置で連続的にトラバースすることで,各ノードの異常スコアを計算するための第1の量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-16T12:32:13Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Learning Graph Search Heuristics [48.83557172525969]
本稿では,新しいニューラルネットワークと学習アルゴリズムであるPHIL(Path Heuristic with Imitation Learning)について述べる。
我々の関数は、ノード距離の推測に有用なグラフ埋め込みを学習し、グラフサイズに依存しない一定時間で実行し、テスト時にA*のようなアルゴリズムに容易に組み込むことができる。
実験の結果、PHILはベンチマークデータセットの最先端の手法と比較して平均58.5%の探索ノード数を削減している。
論文 参考訳(メタデータ) (2022-12-07T22:28:00Z) - Expander Graph Propagation [0.0]
本稿では,拡張グラフ上での情報伝達に基づくエレガントなアプローチを提案する。
EGPは、セットアップに最小限の労力を要しながら、上記の懸念に対処できることを示します。
我々の分析は、GNNの過剰な監視に対処する、スケーラブルな方法の新たなクラスへの道を開くものだと信じています。
論文 参考訳(メタデータ) (2022-10-06T15:36:37Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Generating a Doppelganger Graph: Resembling but Distinct [5.618335078130568]
本論文では,与えられたグラフ特性に類似したドッペルガンガーグラフを生成する手法を提案する。
このアプローチは、グラフ表現学習、生成的敵ネットワーク、およびグラフ実現アルゴリズムのオーケストレーションである。
論文 参考訳(メタデータ) (2021-01-23T22:08:27Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Neural Architecture Search in Graph Neural Networks [1.2881413375147996]
本稿では,グラフニューラルネットワーク(GNN)の最適化のための2つのNAS手法を比較する。
その結果、2つの探索空間上の7つのデータセットについて検討し、どちらの手法もランダムな探索に類似した精度が得られることを示した。
論文 参考訳(メタデータ) (2020-07-31T21:04:24Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。