論文の概要: Hash Layers For Large Sparse Models
- arxiv url: http://arxiv.org/abs/2106.04426v1
- Date: Tue, 8 Jun 2021 14:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:18:17.390956
- Title: Hash Layers For Large Sparse Models
- Title(参考訳): 大規模スパースモデルのためのハッシュ層
- Authors: Stephen Roller, Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston
- Abstract要約: フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。
本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
- 参考スコア(独自算出の注目度): 48.90784451703753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the training of sparse layers that use different parameters
for different inputs based on hashing in large Transformer models.
Specifically, we modify the feedforward layer to hash to different sets of
weights depending on the current token, over all tokens in the sequence. We
show that this procedure either outperforms or is competitive with
learning-to-route mixture-of-expert methods such as Switch Transformers and
BASE Layers, while requiring no routing parameters or extra terms in the
objective function such as a load balancing loss, and no sophisticated
assignment algorithm. We study the performance of different hashing techniques,
hash sizes and input features, and show that balanced and random hashes focused
on the most local features work best, compared to either learning clusters or
using longer-range context. We show our approach works well both on large
language modeling and dialogue tasks, and on downstream fine-tuning tasks.
- Abstract(参考訳): 本研究では,大容量トランスフォーマーモデルにおけるハッシュに基づく異なる入力パラメータを用いたスパース層のトレーニングについて検討する。
具体的には、feedforwardレイヤを、シーケンス内のすべてのトークンに対して、現在のトークンに応じて異なる重み付けセットにハッシュするように修正します。
本手法は,スイッチトランスフォーマーやベースレイヤなどの学習・ルート混合方式に匹敵するか,あるいは,ロードバランシング損失などの目的関数のルーティングパラメータや追加項を必要とせず,高度な代入アルゴリズムも必要としないことを示す。
異なるハッシュ技術,ハッシュサイズ,入力機能の性能を調査し,最も局所的な特徴に注目したバランスとランダムなハッシュが,学習クラスタやより長距離コンテキストのどちらよりも優れていることを示す。
提案手法は,大規模言語モデリングと対話タスク,下流の微調整タスクの両方で有効であることを示す。
関連論文リスト
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Scalarization for Multi-Task and Multi-Domain Learning at Scale [15.545810422759295]
複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースからの情報を統一されたバックボーンに圧縮することができる。
しかし、これらのネットワークの最適化は、異なるタスクやドメイン間の相違による課題である。
論文 参考訳(メタデータ) (2023-10-13T07:31:04Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Binary Representation via Jointly Personalized Sparse Hashing [22.296464665032588]
二元表現学習のための効果的な教師なし手法、すなわち、共同パーソナライズされたスパースハッシュ(JPSH)を提案する。
異なるパーソナライズされたサブスペースは、異なるクラスタのカテゴリ固有の属性を反映するように構成される。
JPSHにおける意味とペアの類似性を同時に保存するために,PSHと多様体に基づくハッシュ学習をシームレスな定式化に組み込む。
論文 参考訳(メタデータ) (2022-08-31T14:18:37Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。