論文の概要: Confidence-Optimal Random Embeddings
- arxiv url: http://arxiv.org/abs/2104.05628v1
- Date: Tue, 6 Apr 2021 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:40:19.363545
- Title: Confidence-Optimal Random Embeddings
- Title(参考訳): 信頼最適ランダム埋め込み
- Authors: Maciej Skorski
- Abstract要約: 本稿では、最適でデータに富む統計信頼度境界を持つjohnson-lindenstrauss分布を考案する。
境界は、任意のデータ次元、埋め込み、および歪み耐性に対して、数値的に最良である。
統計的精度の面での先行作業の改善に加え、データ可読アプローチの無意味な体制を正確に決定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The seminal result of Johnson and Lindenstrauss on random embeddings has been
intensively studied in applied and theoretical computer science. Despite that
vast body of literature, we still lack of complete understanding of statistical
properties of random projections; a particularly intriguing question is: why
are the theoretical bounds that far behind the empirically observed
performance? Motivated by this question, this work develops
Johnson-Lindenstrauss distributions with optimal, data-oblivious, statistical
confidence bounds. These bounds are numerically best possible, for any given
data dimension, embedding dimension, and distortion tolerance. They improve
upon prior works in terms of statistical accuracy, as well as exactly determine
the no-go regimes for data-oblivious approaches. Furthermore, the corresponding
projection matrices are efficiently samplable. The construction relies on
orthogonal matrices, and the proof uses certain elegant properties of the unit
sphere. The following techniques introduced in this work are of independent
interest: a) a compact expression for distortion in terms of singular
eigenvalues of the projection matrix, b) a parametrization linking the unit
sphere and the Dirichlet distribution and c) anti-concentration bounds for the
Dirichlet distribution.
Besides the technical contribution, the paper presents applications and
numerical evaluation along with working implementation in Python.
- Abstract(参考訳): ランダムな埋め込みに関するジョンソンとリンデンシュトラウスのセミナルな結果は、応用および理論的コンピュータ科学において集中的に研究されている。
特に興味深い疑問は、なぜ経験的に観察された性能よりもはるかに遅れている理論的な境界があるのかである。
この質問に動機づけられた本研究は、最適でデータに富んだ統計信頼境界を持つジョンソン・リンデンシュトラウス分布を発達させる。
これらの境界は、任意のデータ次元、埋め込み次元、歪み耐性に対して、数値的に最良である。
統計的精度の観点から先行研究を改善し、データ公開アプローチのノーゴーレジームを正確に決定する。
さらに、対応する投影行列を効率的にサンプリング可能である。
構成は直交行列に依存し、証明は単位球面のある種のエレガントな性質を使用する。
a) 射影行列の特異固有値の観点からの歪みのコンパクトな表現 b) 単位球面とディリクレ分布を連結するパラメトリゼーション、および c) ディリクレ分布に対する反集中境界。
技術的貢献に加えて,Pythonの動作実装とともに,応用と数値評価について述べる。
関連論文リスト
- Assumption-Lean Post-Integrated Inference with Negative Control Outcomes [0.0]
負の制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
提案手法は,予測された直接効果推定値,隠された仲介者,共同設立者,モデレーターまで拡張する。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Node Similarities under Random Projections: Limits and Pathological Cases [9.452274776651494]
ランダム投影法により, ドット積とコサインの類似性がいかによく保存されているかを検討する。
埋め込みによって誘導されるノード順序を反転させるランダムなプロジェクションの確率を計算することにより、基本的な結果をランキングアプリケーションに特殊化する。
ランダムな投射によって生じる統計的ノイズに関して、コサイン類似性は驚くほど正確な近似をもたらすことを示す。
論文 参考訳(メタデータ) (2024-04-15T21:35:25Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Efficient Multidimensional Functional Data Analysis Using Marginal
Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。
本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文 参考訳(メタデータ) (2021-07-30T16:02:15Z) - Random Embeddings with Optimal Accuracy [0.0]
この研究では、Jonson-Lindenstrauss埋め込みを、分散、平均二乗誤差および指数長歪みによって測定されるように、最高の精度で構築する。
論文 参考訳(メタデータ) (2020-12-31T19:00:31Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。