論文の概要: Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies
- arxiv url: http://arxiv.org/abs/2003.08197v4
- Date: Thu, 11 Mar 2021 06:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 09:24:18.102536
- Title: Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies
- Title(参考訳): anchor & transform: 大きな語彙に対するスパース埋め込みの学習
- Authors: Paul Pu Liang, Manzil Zaheer, Yuan Wang, Amr Ahmed
- Abstract要約: 我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
- 参考スコア(独自算出の注目度): 60.285091454321055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning continuous representations of discrete objects such as text, users,
movies, and URLs lies at the heart of many applications including language and
user modeling. When using discrete objects as input to neural networks, we
often ignore the underlying structures (e.g., natural groupings and
similarities) and embed the objects independently into individual vectors. As a
result, existing methods do not scale to large vocabulary sizes. In this paper,
we design a simple and efficient embedding algorithm that learns a small set of
anchor embeddings and a sparse transformation matrix. We call our method Anchor
& Transform (ANT) as the embeddings of discrete objects are a sparse linear
combination of the anchors, weighted according to the transformation matrix.
ANT is scalable, flexible, and end-to-end trainable. We further provide a
statistical interpretation of our algorithm as a Bayesian nonparametric prior
for embeddings that encourages sparsity and leverages natural groupings among
objects. By deriving an approximate inference algorithm based on Small Variance
Asymptotics, we obtain a natural extension that automatically learns the
optimal number of anchors instead of having to tune it as a hyperparameter. On
text classification, language modeling, and movie recommendation benchmarks, we
show that ANT is particularly suitable for large vocabulary sizes and
demonstrates stronger performance with fewer parameters (up to 40x compression)
as compared to existing compression baselines.
- Abstract(参考訳): テキスト、ユーザ、映画、URLなどの離散オブジェクトの連続表現を学習することは、言語やユーザモデリングを含む多くのアプリケーションの中心にある。
離散オブジェクトをニューラルネットワークの入力として使用する場合、基礎となる構造(例えば、自然なグルーピングや類似性)を無視し、個々のベクトルに独立してオブジェクトを埋め込む。
結果として、既存の手法は大きな語彙サイズにスケールしない。
本稿では,アンカー埋め込みの小さな集合とスパース変換行列を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
離散オブジェクトの埋め込みは、変換行列に従って重み付けされたアンカーのスパース線形結合である。
ANTはスケーラブルで柔軟性があり、エンドツーエンドのトレーニングが可能です。
さらに,本アルゴリズムをベイズ非パラメトリックな埋め込み前処理として統計的に解釈し,オブジェクト間の自然グループ化を助長する。
小分散漸近理論に基づく近似推論アルゴリズムを導出することにより、ハイパーパラメータとしてチューニングする代わりに、アンカーの最適な数を自動的に学習する自然拡張を得る。
テキスト分類,言語モデル,映画の推奨ベンチマークでは,既存の圧縮ベースラインと比較して,antは大きな語彙サイズに特に適しており,パラメータ(最大40倍の圧縮)が少なく,強力な性能を示す。
関連論文リスト
- Kolmogorov GAM Networks are all you need! [0.6906005491572398]
Kolmogorov GAMネットワークは、トレーニングと推論のための効率的なアーキテクチャであることが示されている。
それらは、関心の関数に依存しない埋め込みを持つ加法モデルである。
論文 参考訳(メタデータ) (2025-01-01T02:46:00Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Efficient Transformers with Dynamic Token Pooling [11.28381882347617]
言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。
その結果、動的プーリングはバニラ変換器よりも高速かつ高精度であることがわかった。
論文 参考訳(メタデータ) (2022-11-17T18:39:23Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文 参考訳(メタデータ) (2020-04-25T07:38:08Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - An Advance on Variable Elimination with Applications to Tensor-Based
Computation [11.358487655918676]
本稿では,確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムについて述べる。
結果は機能的依存関係の活用に関連しており、非常に大きなツリー幅を持つモデルで推論と学習を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-02-21T14:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。