Fugu-MT 論文翻訳(概要): Hash Layers For Large Sparse Models

論文の概要: Hash Layers For Large Sparse Models

arxiv url: http://arxiv.org/abs/2106.04426v1
Date: Tue, 8 Jun 2021 14:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 16:18:17.390956
Title: Hash Layers For Large Sparse Models
Title（参考訳）: 大規模スパースモデルのためのハッシュ層
Authors: Stephen Roller, Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston
Abstract要約: フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
参考スコア（独自算出の注目度）: 48.90784451703753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the training of sparse layers that use different parameters for different inputs based on hashing in large Transformer models. Specifically, we modify the feedforward layer to hash to different sets of weights depending on the current token, over all tokens in the sequence. We show that this procedure either outperforms or is competitive with learning-to-route mixture-of-expert methods such as Switch Transformers and BASE Layers, while requiring no routing parameters or extra terms in the objective function such as a load balancing loss, and no sophisticated assignment algorithm. We study the performance of different hashing techniques, hash sizes and input features, and show that balanced and random hashes focused on the most local features work best, compared to either learning clusters or using longer-range context. We show our approach works well both on large language modeling and dialogue tasks, and on downstream fine-tuning tasks.
Abstract（参考訳）: 本研究では,大容量トランスフォーマーモデルにおけるハッシュに基づく異なる入力パラメータを用いたスパース層のトレーニングについて検討する。具体的には、feedforwardレイヤを、シーケンス内のすべてのトークンに対して、現在のトークンに応じて異なる重み付けセットにハッシュするように修正します。本手法は,スイッチトランスフォーマーやベースレイヤなどの学習・ルート混合方式に匹敵するか,あるいは,ロードバランシング損失などの目的関数のルーティングパラメータや追加項を必要とせず,高度な代入アルゴリズムも必要としないことを示す。異なるハッシュ技術,ハッシュサイズ,入力機能の性能を調査し,最も局所的な特徴に注目したバランスとランダムなハッシュが,学習クラスタやより長距離コンテキストのどちらよりも優れていることを示す。提案手法は,大規模言語モデリングと対話タスク,下流の微調整タスクの両方で有効であることを示す。

関連論文リスト

RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文参考訳（メタデータ） (2025-02-18T09:34:31Z)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳（メタデータ） (2024-12-17T01:12:35Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Scalarization for Multi-Task and Multi-Domain Learning at Scale [15.545810422759295]
複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースからの情報を統一されたバックボーンに圧縮することができる。しかし、これらのネットワークの最適化は、異なるタスクやドメイン間の相違による課題である。
論文参考訳（メタデータ） (2023-10-13T07:31:04Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Binary Representation via Jointly Personalized Sparse Hashing [22.296464665032588]
二元表現学習のための効果的な教師なし手法、すなわち、共同パーソナライズされたスパースハッシュ(JPSH)を提案する。異なるパーソナライズされたサブスペースは、異なるクラスタのカテゴリ固有の属性を反映するように構成される。 JPSHにおける意味とペアの類似性を同時に保存するために,PSHと多様体に基づくハッシュ学習をシームレスな定式化に組み込む。
論文参考訳（メタデータ） (2022-08-31T14:18:37Z)
DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。実験の結果,様々な設定や設定において優れた性能を示した。
論文参考訳（メタデータ） (2022-06-09T17:57:46Z)
Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文参考訳（メタデータ） (2021-11-18T18:06:01Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。