論文の概要: Sketch and Scale: Geo-distributed tSNE and UMAP
- arxiv url: http://arxiv.org/abs/2011.06103v1
- Date: Wed, 11 Nov 2020 22:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:13:40.163837
- Title: Sketch and Scale: Geo-distributed tSNE and UMAP
- Title(参考訳): Sketch and Scale: 地理的に分散したtSNEとUMAP
- Authors: Viska Wei, Nikita Ivkin, Vladimir Braverman, Alexander Szalay
- Abstract要約: 地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
- 参考スコア(独自算出の注目度): 75.44887265789056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running machine learning analytics over geographically distributed datasets
is a rapidly arising problem in the world of data management policies ensuring
privacy and data security. Visualizing high dimensional data using tools such
as t-distributed Stochastic Neighbor Embedding (tSNE) and Uniform Manifold
Approximation and Projection (UMAP) became common practice for data scientists.
Both tools scale poorly in time and memory. While recent optimizations showed
successful handling of 10,000 data points, scaling beyond million points is
still challenging. We introduce a novel framework: Sketch and Scale (SnS). It
leverages a Count Sketch data structure to compress the data on the edge nodes,
aggregates the reduced size sketches on the master node, and runs vanilla tSNE
or UMAP on the summary, representing the densest areas, extracted from the
aggregated sketch. We show this technique to be fully parallel, scale linearly
in time, logarithmically in memory, and communication, making it possible to
analyze datasets with many millions, potentially billions of data points,
spread across several data centers around the globe. We demonstrate the power
of our method on two mid-size datasets: cancer data with 52 million 35-band
pixels from multiple images of tumor biopsies; and astrophysics data of 100
million stars with multi-color photometry from the Sloan Digital Sky Survey
(SDSS).
- Abstract(参考訳): 地理的に分散したデータセット上で機械学習分析を実行することは、プライバシとデータセキュリティを保証するデータ管理ポリシの世界において急速に発生する問題である。
t-distributed Stochastic Neighbor Embedding (tSNE) やUniform Manifold Approximation and Projection (UMAP) といったツールを用いた高次元データの可視化がデータ科学者にとって一般的となった。
どちらのツールも、時間とメモリが貧弱です。
最近の最適化では1万のデータポイントの処理が成功したが、数百万ポイントを超えるスケーリングは依然として難しい。
我々はSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、集約されたスケッチから抽出された最も密集した領域を表す要約上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
Sloan Digital Sky Survey (SDSS) から, 腫瘍生検の複数の画像から5200万35バンド画素の癌データと, 1億個の星の天体物理学データと多色光度データを用いて, この手法の有効性を実証した。
関連論文リスト
- Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs [32.40622753355266]
データの幾何学的構造を研究するための枠組みを提案する。
我々は最近導入された非負のカーネル回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。
論文 参考訳(メタデータ) (2022-10-31T17:01:17Z) - PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking? [62.997667081978825]
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:56Z) - SQuadMDS: a lean Stochastic Quartet MDS improving global structure
preservation in neighbor embedding like t-SNE and UMAP [3.7731754155538164]
この研究は、N個のデータポイントを持つO(N)の時間と空間の複雑さを伴う多次元スケーリングへの強制的アプローチを導入する。
この方法は、t-SNEのような近隣の埋め込みのファミリーの強制的レイアウトと組み合わせて、データのグローバル構造とローカル構造の両方を保存する埋め込みを生成することができる。
論文 参考訳(メタデータ) (2022-02-24T13:14:58Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Efficient Binary Embedding of Categorical Data using BinSketch [0.9560980936110233]
本稿では,分類データセットに対する次元削減アルゴリズム,いわゆるスケッチを提案する。
キャビンは高次元の圏ベクトルから低次元のバイナリスケッチを構成する。
チャムは、2つの元のベクトルの間のハミング距離の近似をスケッチからのみ計算する。
論文 参考訳(メタデータ) (2021-11-13T18:18:35Z) - Statistical embedding: Beyond principal components [0.0]
3つのメソッドが提示される: $t$-SNE, UMAP と LargeVis はそれぞれ 1 と 2 と 3 のメソッドに基づいている。
これらの手法は、2つの模擬データセットで示され比較される: 1つは3重のノイズラヌキュロイド曲線と、もう1つは複雑さを増すネットワークと2種類のノードからなる。
論文 参考訳(メタデータ) (2021-06-03T14:01:21Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。