論文の概要: Efficient distributed representations beyond negative sampling
- arxiv url: http://arxiv.org/abs/2303.17475v2
- Date: Mon, 30 Oct 2023 09:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:31:55.621011
- Title: Efficient distributed representations beyond negative sampling
- Title(参考訳): 負サンプリングを超えた効率的な分散表現
- Authors: Lorenzo Dall'Amico and Enrico Maria Belliardo
- Abstract要約: 本稿では,分散表現を効率よく学習する手法について述べる。
我々は,sotfmax正規化定数を線形時間で推定でき,効率的な最適化戦略を設計できることを示した。
- 参考スコア(独自算出の注目度): 4.5687771576879594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article describes an efficient method to learn distributed
representations, also known as embeddings. This is accomplished minimizing an
objective function similar to the one introduced in the Word2Vec algorithm and
later adopted in several works. The optimization computational bottleneck is
the calculation of the softmax normalization constants for which a number of
operations scaling quadratically with the sample size is required. This
complexity is unsuited for large datasets and negative sampling is a popular
workaround, allowing one to obtain distributed representations in linear time
with respect to the sample size. Negative sampling consists, however, in a
change of the loss function and hence solves a different optimization problem
from the one originally proposed. Our contribution is to show that the sotfmax
normalization constants can be estimated in linear time, allowing us to design
an efficient optimization strategy to learn distributed representations. We
test our approximation on two popular applications related to word and node
embeddings. The results evidence competing performance in terms of accuracy
with respect to negative sampling with a remarkably lower computational time.
- Abstract(参考訳): 本稿では,分散表現を学習するための効率的な手法について述べる。
これはWord2Vecアルゴリズムで導入されたものと類似した目的関数を最小化し、後にいくつかの作品で採用された。
最適化計算のボトルネックは、サンプルサイズと2次にスケーリングする多数の演算を必要とするソフトマックス正規化定数の計算である。
この複雑さは大規模なデータセットには不適であり、負のサンプリングは一般的な回避策であり、サンプルサイズに関して線形時間で分散表現を得ることができる。
しかし、負のサンプリングは損失関数の変更に含まれるため、当初提案されたものと異なる最適化問題を解決する。
我々の貢献は、sotfmax正規化定数を線形時間で推定できることを示し、分散表現を学習するための効率的な最適化戦略を設計できることである。
単語とノードの埋め込みに関連する2つの一般的なアプリケーションで近似をテストします。
その結果, 計算時間が著しく低い負サンプリングに対して, 精度で競合する性能を実証した。
関連論文リスト
- Approximating Metric Magnitude of Point Sets [4.522729058300309]
計量等級は、多くの望ましい幾何学的性質を持つ点雲の「大きさ」の尺度である。
様々な数学的文脈に適応しており、最近の研究は機械学習と最適化アルゴリズムを強化することを示唆している。
本稿では, 等級問題について検討し, 効率よく近似する方法を示し, 凸最適化問題として扱うことができるが, 部分モジュラ最適化としては適用できないことを示す。
本稿では,高速に収束し精度の高い反復近似アルゴリズムと,計算をより高速に行うサブセット選択法という,2つの新しいアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-09-06T17:15:28Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Fast Optimal Locally Private Mean Estimation via Random Projections [58.603579803010796]
ユークリッド球における高次元ベクトルの局所的プライベート平均推定の問題について検討する。
プライベート平均推定のための新しいアルゴリズムフレームワークであるProjUnitを提案する。
各ランダム化器はその入力をランダムな低次元部分空間に投影し、結果を正規化し、最適なアルゴリズムを実行する。
論文 参考訳(メタデータ) (2023-06-07T14:07:35Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Fast Projected Newton-like Method for Precision Matrix Estimation under
Total Positivity [15.023842222803058]
現在のアルゴリズムはブロック座標降下法や近点アルゴリズムを用いて設計されている。
本稿では,2次元投影法に基づく新しいアルゴリズムを提案し,慎重に設計された探索方向と変数分割方式を取り入れた。
合成および実世界のデータセットに対する実験結果から,提案アルゴリズムは最先端の手法と比較して計算効率を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-03T14:39:10Z) - Algorithmic Solution for Systems of Linear Equations, in
$\mathcal{O}(mn)$ time [0.0]
方程式の線形系の探索解を超高速に求める新しいアルゴリズムを提案する。
実行時間は最先端のメソッドと比較して非常に短い。
この論文はアルゴリズム収束の理論的証明も含んでいる。
論文 参考訳(メタデータ) (2021-04-26T13:40:31Z) - Parallel Scheduling Self-attention Mechanism: Generalization and
Optimization [0.76146285961466]
本稿では,SAT(Satisfiability check)ソルバによって解決された小インスタンスの最適スケジューリングから導いた一般スケジューリングアルゴリズムを提案する。
余剰計算をスキップする際のさらなる最適化戦略も推進され、元の計算の約25%と50%の削減が達成される。
提案アルゴリズムは、入力ベクトルの数がアーキテクチャで利用可能な演算ユニットの数に割り切れる限り、問題のサイズにかかわらず適用可能である。
論文 参考訳(メタデータ) (2020-12-02T12:04:16Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Estimating Multiple Precision Matrices with Cluster Fusion
Regularization [0.90238471756546]
異なるクラスから複数の精度行列を推定するペナライズされた可能性を提案する。
既存の手法の多くは、精度行列間の関係に関する情報を含まないか、あるいはこの情報を先入観として要求する。
論文 参考訳(メタデータ) (2020-03-01T01:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。