論文の概要: Estimation of embedding vectors in high dimensions
- arxiv url: http://arxiv.org/abs/2312.07802v1
- Date: Tue, 12 Dec 2023 23:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:08:49.837362
- Title: Estimation of embedding vectors in high dimensions
- Title(参考訳): 高次元における埋め込みベクトルの推定
- Authors: Golara Ahmadi Azar, Melika Emami, Alyson Fletcher, Sundeep Rangan
- Abstract要約: 我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
- 参考スコア(独自算出の注目度): 10.55292041492388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embeddings are a basic initial feature extraction step in many machine
learning models, particularly in natural language processing. An embedding
attempts to map data tokens to a low-dimensional space where similar tokens are
mapped to vectors that are close to one another by some metric in the embedding
space. A basic question is how well can such embedding be learned? To study
this problem, we consider a simple probability model for discrete data where
there is some "true" but unknown embedding where the correlation of random
variables is related to the similarity of the embeddings. Under this model, it
is shown that the embeddings can be learned by a variant of low-rank
approximate message passing (AMP) method. The AMP approach enables precise
predictions of the accuracy of the estimation in certain high-dimensional
limits. In particular, the methodology provides insight on the relations of key
parameters such as the number of samples per value, the frequency of the terms,
and the strength of the embedding correlation on the probability distribution.
Our theoretical findings are validated by simulations on both synthetic data
and real text data.
- Abstract(参考訳): 埋め込みは多くの機械学習モデル、特に自然言語処理における基本的な特徴抽出ステップである。
埋め込みは、データトークンを、同様のトークンが埋め込み空間内のある計量によって互いに近いベクトルにマッピングされる低次元空間にマッピングしようとする。
基本的な質問は、そのような埋め込みがいかにうまく学べるかである。
この問題を考察するために、確率変数の相関が埋め込みの類似性と関連しているような「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
AMPアプローチは、ある高次元極限における推定精度の正確な予測を可能にする。
特に、この方法論は、値当たりのサンプル数、用語の頻度、確率分布に対する埋め込み相関の強さといった重要なパラメータの関係についての洞察を提供する。
理論的な結果は合成データと実文データの両方のシミュレーションによって検証される。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - An unfolding method based on conditional Invertible Neural Networks
(cINN) using iterative training [0.0]
非可逆ニューラルネットワーク(INN)のような生成ネットワークは確率的展開を可能にする。
模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件INN(IcINN)を導入する。
論文 参考訳(メタデータ) (2022-12-16T19:00:05Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - On a Variational Approximation based Empirical Likelihood ABC Method [1.5293427903448025]
本稿では,ABC法を提案する。
対象の対数姿勢は、期待される関節対数類似度とデータ生成密度の差分エントロピーの和として近似できることを示す。
論文 参考訳(メタデータ) (2020-11-12T21:24:26Z) - An Embedded Model Estimator for Non-Stationary Random Functions using
Multiple Secondary Variables [0.0]
本稿では,本手法を導入し,地理的モデリングや量子ランダムフォレストに適用した結果と自然に類似した一貫性を有することを示す。
このアルゴリズムは、各ターゲット位置におけるターゲット変数の条件分布を推定することで機能する。
論文 参考訳(メタデータ) (2020-11-09T00:14:24Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Normal-bundle Bootstrap [2.741266294612776]
本稿では,与えられたデータセットの幾何学的構造を保持する新しいデータを生成する手法を提案する。
微分幾何学における多様体学習と概念のアルゴリズムにインスパイアされた本手法は,基礎となる確率測度を余分化測度に分解する。
本手法は, 密度リッジおよび関連統計量の推定に応用し, オーバーフィッティングを低減するためにデータ拡張を行う。
論文 参考訳(メタデータ) (2020-07-27T21:14:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。