論文の概要: Supervised Quantile Normalization for Low-rank Matrix Approximation
- arxiv url: http://arxiv.org/abs/2002.03229v2
- Date: Fri, 3 Jul 2020 18:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:29:28.617008
- Title: Supervised Quantile Normalization for Low-rank Matrix Approximation
- Title(参考訳): 低ランク行列近似のための修正量子正規化
- Authors: Marco Cuturi, Olivier Teboul, Jonathan Niles-Weed, Jean-Philippe Vert
- Abstract要約: 我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
- 参考スコア(独自算出の注目度): 50.445371939523305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low rank matrix factorization is a fundamental building block in machine
learning, used for instance to summarize gene expression profile data or
word-document counts. To be robust to outliers and differences in scale across
features, a matrix factorization step is usually preceded by ad-hoc feature
normalization steps, such as \texttt{tf-idf} scaling or data whitening. We
propose in this work to learn these normalization operators jointly with the
factorization itself. More precisely, given a $d\times n$ matrix $X$ of $d$
features measured on $n$ individuals, we propose to learn the parameters of
quantile normalization operators that can operate row-wise on the values of $X$
and/or of its factorization $UV$ to improve the quality of the low-rank
representation of $X$ itself. This optimization is facilitated by the
introduction of a new differentiable quantile normalization operator built
using optimal transport, providing new results on top of existing work by
(Cuturi et al. 2019). We demonstrate the applicability of these techniques on
synthetic and genomics datasets.
- Abstract(参考訳): 低ランク行列分解は機械学習の基本的な構成要素であり、例えば、遺伝子発現プロファイルデータや単語文書の数を要約するために使われる。
外れ値や機能間のスケールの違いにロバストであるためには、行列分解ステップは、通常、アドホックな特徴正規化ステップ、例えば \texttt{tf-idf} スケーリングやデータホワイトニングによって先行する。
本稿では、これらの正規化演算子を因子化自身と共同で学習することを提案する。
より正確には、$d\times n$ matrix $x$ of $d$ features measured on $n$ individual, we to learn the parameters of quantile normalization operator which can operation row-wise on the values of $x$ and/or of its factorization $uv$ to improve the quality of the low-rank representation of $x$ itself。
この最適化は、最適な輸送を用いて構築された新しい微分可能な量子化正規化演算子の導入により、既存の作業の上に新しい結果を提供する(Cuturi et al. 2019)。
我々は,これらの手法を合成およびゲノムデータセットに適用する可能性を示す。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Private Synthetic Data for Multitask Learning and Marginal Queries [30.123686707904543]
我々のアルゴリズムにおける重要な革新は、数値的特徴を直接扱う能力である。
バイナリ化の必要性を排除することで、大量の統計的クエリを保持する合成データを生成することができる。
我々の手法は最も優れた手法よりも2~5倍高速に動作します。
論文 参考訳(メタデータ) (2022-09-15T16:00:44Z) - Majorization-minimization for Sparse Nonnegative Matrix Factorization
with the $\beta$-divergence [2.3787352248749376]
他の因子(辞書行列)のノルムは不正な定式化を避けるために制御する必要があることはよく知られている。
標準のプラクティスは、辞書の列に単位ノルムを持つよう制約することであり、これは非自明な最適化問題につながる。
我々は,$ell_1$-regularization あるいはより "攻撃的" なログ規則化に対して,単純な乗法的更新をもたらすブロック・ディフレッシブ・プライマリゼーション・最小化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-07-13T16:09:29Z) - An Online Riemannian PCA for Stochastic Canonical Correlation Analysis [37.8212762083567]
投影行列の再パラメータ化を用いた正準相関解析(CCA)のための効率的なアルゴリズム(RSG+)を提案する。
本論文は,その特性の定式化と技術的解析に主眼を置いているが,本実験により,一般的なデータセットに対する経験的挙動が極めて有望であることが確認された。
論文 参考訳(メタデータ) (2021-06-08T23:38:29Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-11T17:35:25Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。