論文の概要: Superbloom: Bloom filter meets Transformer
- arxiv url: http://arxiv.org/abs/2002.04723v1
- Date: Tue, 11 Feb 2020 22:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:00:05.445774
- Title: Superbloom: Bloom filter meets Transformer
- Title(参考訳): スーパーブルーム:ブルームフィルターがTransformerと出会う
- Authors: John Anderson, Qingqing Huang, Walid Krichene, Steffen Rendle, Li
Zhang
- Abstract要約: 自然言語モデルにおける単語片のアイデアを、不透明なID上の機械学習タスクに拡張する。
ハッシュ関数を適用して、Bloomフィルタと同様に、より小さな空間で各idを複数のハッシュトークンにマッピングする。
このBloomフィルタダイジェストに多層トランスフォーマーを適用することで,高精度なモデルが得られることを示す。
- 参考スコア(独自算出の注目度): 20.4500657531462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the idea of word pieces in natural language models to machine
learning tasks on opaque ids. This is achieved by applying hash functions to
map each id to multiple hash tokens in a much smaller space, similarly to a
Bloom filter. We show that by applying a multi-layer Transformer to these Bloom
filter digests, we are able to obtain models with high accuracy. They
outperform models of a similar size without hashing and, to a large degree,
models of a much larger size trained using sampled softmax with the same
computational budget. Our key observation is that it is important to use a
multi-layer Transformer for Bloom filter digests to remove ambiguity in the
hashed input. We believe this provides an alternative method to solving
problems with large vocabulary size.
- Abstract(参考訳): 自然言語モデルにおける単語片の概念を不透明なID上の機械学習タスクに拡張する。
これは、Bloomフィルタと同様に、より小さな空間で各idを複数のハッシュトークンにマッピングするためにハッシュ関数を適用することで達成される。
これらのブルームフィルタダイジェストに多層トランスフォーマーを適用することで,高精度なモデルが得られることを示す。
ハッシュなしで同様のサイズのモデルより優れており、同じ計算予算でサンプルソフトマックスを用いて訓練された、はるかに大きなサイズのモデルよりも優れている。
我々は,多層トランスフォーマーをブルームフィルタダイジェストに使用し,ハッシュ入力のあいまいさを除去することが重要であることを考察した。
これは、大きな語彙サイズで問題を解決する方法の代替となると信じている。
関連論文リスト
- MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Learning to Collide: Recommendation System Model Compression with
Learned Hash Functions [4.6994057182972595]
ディープレコメンデーションモデルのキーとなる特徴は、埋め込みテーブルの膨大なメモリ要求である。
モデルサイズを減らすための一般的なテクニックは、すべてのカテゴリ変数識別子(ID)を小さな空間にハッシュすることである。
このハッシュにより、埋め込みテーブルに格納しなければならないユニークな表現の数が減少し、サイズが減少する。
我々は代わりに、意味的に類似したID間の衝突を促進する新しいマッピング関数であるLearned Hash Functionsを導入する。
論文 参考訳(メタデータ) (2022-03-28T06:07:30Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - Hash Layers For Large Sparse Models [48.90784451703753]
フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。
本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
論文 参考訳(メタデータ) (2021-06-08T14:54:24Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Training Interpretable Convolutional Neural Networks by Differentiating
Class-specific Filters [64.46270549587004]
畳み込みニューラルネットワーク(CNN)は、様々なタスクでうまく使われている。
CNNは、しばしば「ブラックボックス」と解釈可能性の欠如とみなされる。
本稿では,クラス固有のフィルタを奨励することで,解釈可能なCNNを訓練する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-16T09:12:26Z) - All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文 参考訳(メタデータ) (2020-04-25T07:38:08Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。