論文の概要: High Performance Out-of-sample Embedding Techniques for Multidimensional
Scaling
- arxiv url: http://arxiv.org/abs/2111.04067v1
- Date: Sun, 7 Nov 2021 12:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 06:51:29.459258
- Title: High Performance Out-of-sample Embedding Techniques for Multidimensional
Scaling
- Title(参考訳): 多次元スケーリングのための高性能サンプル外埋め込み技術
- Authors: Samudra Herath, Matthew Roughan, Gary Glonek
- Abstract要約: 我々は,大規模なデータに対するMDSアルゴリズムを拡張するために,サンプル外埋め込み(OSE)ソリューションを提案する。
我々は2つのOSE技術を提案する。1つは最適化アプローチに基づくもので、もう1つはニューラルネットワークモデルに基づくものである。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent rapid growth of the dimension of many datasets means that many
approaches to dimension reduction (DR) have gained significant attention.
High-performance DR algorithms are required to make data analysis feasible for
big and fast data sets. However, many traditional DR techniques are challenged
by truly large data sets. In particular multidimensional scaling (MDS) does not
scale well. MDS is a popular group of DR techniques because it can perform DR
on data where the only input is a dissimilarity function. However, common
approaches are at least quadratic in memory and computation and, hence,
prohibitive for large-scale data.
We propose an out-of-sample embedding (OSE) solution to extend the MDS
algorithm for large-scale data utilising the embedding of only a subset of the
given data. We present two OSE techniques: the first based on an optimisation
approach and the second based on a neural network model. With a minor trade-off
in the approximation, the out-of-sample techniques can process large-scale data
with reasonable computation and memory requirements. While both methods perform
well, the neural network model outperforms the optimisation approach of the OSE
solution in terms of efficiency. OSE has the dual benefit that it allows fast
DR on streaming datasets as well as static databases.
- Abstract(参考訳): 最近の多くのデータセットの次元の急速な成長は、次元減少(DR)への多くのアプローチが注目されていることを意味する。
大規模かつ高速なデータセットにデータ解析を可能にするためには,高性能DRアルゴリズムが必要である。
しかし、多くの従来のDR技術は真に大きなデータセットによって挑戦されている。
特に多次元スケーリング(MDS)はうまくスケールしない。
MDSは、唯一の入力が相似関数であるデータ上でDRを実行することができるため、DR技法の一般的なグループである。
しかし、一般的なアプローチは少なくともメモリと計算では二次的であり、大規模データでは禁止される。
本稿では, 大規模データに対するMDSアルゴリズムを拡張するために, 与えられたデータのサブセットのみの埋め込みを利用した, サンプル外埋め込み(OSE)ソリューションを提案する。
1つは最適化アプローチに基づく手法,もう1つはニューラルネットワークモデルに基づく手法である。
近似の小さなトレードオフにより、アウトオブサンプル技術は、合理的な計算とメモリ要求で大規模データを処理できる。
どちらの手法もうまく機能するが、ニューラルネットワークモデルは効率の観点からOSEソリューションの最適化アプローチより優れている。
OSEにはストリーミングデータセットと静的データベースで高速DRを可能にするという2つのメリットがある。
関連論文リスト
- Mini-Hes: A Parallelizable Second-order Latent Factor Analysis Model [8.06111903129142]
本稿では,LFAモデル構築のためのミニブロック対角ヘシアンフリー(Mini-Hes)最適化を提案する。
実験結果から,Mini-Hesでは,LFAモデルは欠落したデータ推定タスクに対処する上で,いくつかの最先端モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-19T08:43:00Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation [19.780410411548935]
本稿ではDDAug(Dynamic Data Augmentation)を提案する。
DDAug計算は、様々な拡張を表現する階層木構造を開発する。
我々の手法は、現在の最先端データ拡張戦略より優れています。
論文 参考訳(メタデータ) (2023-05-25T06:44:43Z) - Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z) - Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering [13.491022200305824]
本稿では,ビッグデータマイニングとクラスタリングのための分散行列分解モデルを提案する。
具体的には, 1) 加速度勾配降下, 2) 乗算器の交互方向法, 3) 統計的推論の3つの方法を採用する。
我々のアルゴリズムは、ビッグデータによく対応し、他の分散手法と比較して優れた、あるいは競合する性能を達成する。
論文 参考訳(メタデータ) (2020-02-10T13:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。