論文の概要: Simultaneous Dimensionality Reduction: A Data Efficient Approach for
Multimodal Representations Learning
- arxiv url: http://arxiv.org/abs/2310.04458v1
- Date: Thu, 5 Oct 2023 04:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:41:29.229758
- Title: Simultaneous Dimensionality Reduction: A Data Efficient Approach for
Multimodal Representations Learning
- Title(参考訳): 同時次元削減:マルチモーダル表現学習のためのデータ効率的なアプローチ
- Authors: Eslam Abdelaleem, Ahmed Roman, K. Michael Martini, Ilya Nemenman
- Abstract要約: 次元性還元(DR):独立次元性還元(IDR)と同時次元性還元(SDR)の2つの主要クラスを探索する。
IDRでは、各モダリティは独立に圧縮され、可能な限り各モダリティに多くのばらつきを保持するよう努力する。
SDRでは、モダリティを同時に圧縮して、削減された記述間の共変を最大化し、個々の変動がどれだけ保存されているかに注意を払わない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore two primary classes of approaches to dimensionality reduction
(DR): Independent Dimensionality Reduction (IDR) and Simultaneous
Dimensionality Reduction (SDR). In IDR methods, of which Principal Components
Analysis is a paradigmatic example, each modality is compressed independently,
striving to retain as much variation within each modality as possible. In
contrast, in SDR, one simultaneously compresses the modalities to maximize the
covariation between the reduced descriptions while paying less attention to how
much individual variation is preserved. Paradigmatic examples include Partial
Least Squares and Canonical Correlations Analysis. Even though these DR methods
are a staple of statistics, their relative accuracy and data set size
requirements are poorly understood. We introduce a generative linear model to
synthesize multimodal data with known variance and covariance structures to
examine these questions. We assess the accuracy of the reconstruction of the
covariance structures as a function of the number of samples, signal-to-noise
ratio, and the number of varying and covarying signals in the data. Using
numerical experiments, we demonstrate that linear SDR methods consistently
outperform linear IDR methods and yield higher-quality, more succinct
reduced-dimensional representations with smaller datasets. Remarkably,
regularized CCA can identify low-dimensional weak covarying structures even
when the number of samples is much smaller than the dimensionality of the data,
which is a regime challenging for all dimensionality reduction methods. Our
work corroborates and explains previous observations in the literature that SDR
can be more effective in detecting covariation patterns in data. These findings
suggest that SDR should be preferred to IDR in real-world data analysis when
detecting covariation is more important than preserving variation.
- Abstract(参考訳): 本稿では,次元還元(DR)へのアプローチとして,独立次元化(IDR)と同時次元化(SDR)の2種類について検討する。
主成分分析がパラダイム的な例であるIDR法では、各モダリティは独立に圧縮され、可能な限り各モダリティに多くのばらつきを保とうとする。
対照的に、sdrでは、減った記述間の共変を最大化するために同時にモダリティを圧縮し、個々の変動がどれだけ保存されているかに注意を払わない。
パラダイマティックな例としては、部分最小正方形と正準相関解析がある。
これらのdrメソッドは統計学の定番ですが、相対的な正確さとデータセットのサイズ要件はよく分かっていません。
本稿では,既知の分散構造と共分散構造を持つマルチモーダルデータを合成する生成線形モデルを提案する。
本研究では,データ中のサンプル数,信号対雑音比,変動信号数および共変信号数の関数として,共分散構造の再構成精度を評価する。
数値実験により,線形sdr法が線形idr法を一貫して上回っており,より少ないデータセットでより高品質で簡潔な縮小次元表現が得られることを示す。
顕著なことに、正規化されたCAAは、サンプルの数がデータ次元よりもはるかに小さい場合でも、低次元の弱い共変構造を識別することができる。
我々の研究は、SDRがデータの共変パターンをより効果的に検出できるという文献における過去の観察を裏付け、説明します。
これらの結果は,共変量検出においては,変動の保存よりも,実世界データ解析においてsdrよりもsdrが好ましいことを示唆する。
関連論文リスト
- Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
我々は、高次元一般化線形モデルにおいて、オンライン推論に新しいアプローチを導入する。
本手法はシングルパスモードで動作し,時間と空間の複雑さを著しく低減する。
提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Contrastive inverse regression for dimension reduction [0.0]
コントラッシブ・リバース・レグレッション (CIR) と呼ばれる, コントラッシブ・セッティングに特化して設計されたディメンション・リダクション法を提案する。
CIRは、非標準損失関数を持つスティーフェル多様体上で定義される最適化問題を導入する。
勾配勾配勾配に基づくアルゴリズムを用いて,CIRの局所最適収束を証明し,高次元データに対する競合手法よりも優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2023-05-20T21:44:11Z) - Dimensionality Reduction as Probabilistic Inference [10.714603218784175]
次元性低減(DR)アルゴリズムは、高次元データを低次元表現に圧縮し、データの重要な特徴を保存する。
本稿では,多種多様な古典DRアルゴリズムを確率的推論アルゴリズムとして解釈するProbDR変分フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-15T23:48:59Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z) - D-GCCA: Decomposition-based Generalized Canonical Correlation Analysis
for Multi-view High-dimensional Data [11.184915338554422]
高次元多視点データ分析における一般的なモデルは、各ビューのデータ行列を、すべてのデータビューに共通する潜在因子によって生成される低ランクの共通ソース行列に分解する。
本稿では,分解に基づく一般化正準相関解析(D-GCCA)と呼ばれる新しい分解法を提案する。
我々のD-GCCAは、共通成分と特異成分を正準変数から分離することにより、一般化された正準相関解析よりも一歩前進する。
論文 参考訳(メタデータ) (2020-01-09T06:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。