論文の概要: On Probabilistic Embeddings in Optimal Dimension Reduction
- arxiv url: http://arxiv.org/abs/2408.02433v1
- Date: Mon, 5 Aug 2024 12:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:37:05.808868
- Title: On Probabilistic Embeddings in Optimal Dimension Reduction
- Title(参考訳): 最適次元還元における確率的埋め込みについて
- Authors: Ryan Murray, Adam Pickarski,
- Abstract要約: 次元減少アルゴリズムは多くのデータサイエンスパイプラインの重要な部分である。
広く利用されているにもかかわらず、多くの非線形次元還元アルゴリズムは理論的観点からは理解されていない。
- 参考スコア(独自算出の注目度): 1.2085509610251701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dimension reduction algorithms are a crucial part of many data science pipelines, including data exploration, feature creation and selection, and denoising. Despite their wide utilization, many non-linear dimension reduction algorithms are poorly understood from a theoretical perspective. In this work we consider a generalized version of multidimensional scaling, which is posed as an optimization problem in which a mapping from a high-dimensional feature space to a lower-dimensional embedding space seeks to preserve either inner products or norms of the distribution in feature space, and which encompasses many commonly used dimension reduction algorithms. We analytically investigate the variational properties of this problem, leading to the following insights: 1) Solutions found using standard particle descent methods may lead to non-deterministic embeddings, 2) A relaxed or probabilistic formulation of the problem admits solutions with easily interpretable necessary conditions, 3) The globally optimal solutions to the relaxed problem actually must give a deterministic embedding. This progression of results mirrors the classical development of optimal transportation, and in a case relating to the Gromov-Wasserstein distance actually gives explicit insight into the structure of the optimal embeddings, which are parametrically determined and discontinuous. Finally, we illustrate that a standard computational implementation of this task does not learn deterministic embeddings, which means that it learns sub-optimal mappings, and that the embeddings learned in that context have highly misleading clustering structure, underscoring the delicate nature of solving this problem computationally.
- Abstract(参考訳): 次元削減アルゴリズムは多くのデータサイエンスパイプラインにおいて重要な部分であり、データ探索、特徴生成と選択、デノナイズなどが含まれる。
広く利用されているにもかかわらず、多くの非線形次元還元アルゴリズムは理論的観点からは理解されていない。
本研究では,高次元特徴空間から低次元埋め込み空間への写像が特徴空間における分布の内積やノルムを保存しようとする最適化問題として提案される多次元スケーリングの一般化版について考察する。
この問題の変動特性を解析的に検討し、以下の知見を得た。
1) 標準粒子降下法による解は非決定論的埋め込みにつながる可能性がある。
2 問題の緩和的又は確率的定式化は、容易に解釈可能な必要条件の解を認める。
3) 緩和された問題に対する大域的最適解は、実際には決定論的埋め込みを与える必要がある。
この結果の進展は、古典的な最適輸送の発達を反映しており、グロモフ=ヴァッサーシュタイン距離に関する場合、パラメトリック的に決定され不連続な最適埋め込みの構造に関する明確な洞察を実際に与えている。
最後に、このタスクの標準的な計算実装は決定論的埋め込みを学ばず、つまり、準最適写像を学習し、その文脈で学んだ埋め込みはクラスタリング構造を非常に誤解させるものであり、この問題を計算的に解くという繊細な性質を暗示している。
関連論文リスト
- Gauge-optimal approximate learning for small data classification
problems [0.0]
小さなデータ学習問題は、応答変数の観測量が限られたことと大きな特徴空間次元との相違によって特徴づけられる。
本稿では,Gauge-Optimal Approximate Learning (GOAL)アルゴリズムを提案する。
GOALは、合成データと、気候科学やバイオインフォマティクスといった現実世界の応用に挑戦する、最先端の機械学習(ML)ツールと比較されている。
論文 参考訳(メタデータ) (2023-10-29T16:46:05Z) - Prescriptive PCA: Dimensionality Reduction for Two-stage Stochastic
Optimization [1.1612308609123565]
最適化フェーズにおける準最適度を最小化することを目的とした,規範的次元削減フレームワークを開発した。
下流最適化問題に期待値の目的がある場合、分散ロバスト最適化問題を解くことにより、規範的次元削減が可能であることを示す。
提案手法は, 実データおよび合成データを用いて主成分分析を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-04T00:50:35Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。
本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文 参考訳(メタデータ) (2023-03-11T23:19:32Z) - Adaptive Stochastic Optimisation of Nonconvex Composite Objectives [2.1700203922407493]
一般化された複合ミラー降下アルゴリズムの一群を提案し,解析する。
適応的なステップサイズでは、提案アルゴリズムは問題の事前知識を必要とせずに収束する。
決定集合の低次元構造を高次元問題に活用する。
論文 参考訳(メタデータ) (2022-11-21T18:31:43Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。