Fugu-MT 論文翻訳(概要): Sparse Universal Transformer

論文の概要: Sparse Universal Transformer

arxiv url: http://arxiv.org/abs/2310.07096v1
Date: Wed, 11 Oct 2023 00:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 00:56:16.971417
Title: Sparse Universal Transformer
Title（参考訳）: スパースユニバーサルトランスフォーマ
Authors: Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
Abstract要約: Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
参考スコア（独自算出の注目度）: 64.78045820484299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Universal Transformer (UT) is a variant of the Transformer that shares parameters across its layers. Empirical evidence shows that UTs have better compositional generalization than Vanilla Transformers (VTs) in formal language tasks. The parameter-sharing also affords it better parameter efficiency than VTs. Despite its many advantages, scaling UT parameters is much more compute and memory intensive than scaling up a VT. This paper proposes the Sparse Universal Transformer (SUT), which leverages Sparse Mixture of Experts (SMoE) and a new stick-breaking-based dynamic halting mechanism to reduce UT's computation complexity while retaining its parameter efficiency and generalization ability. Experiments show that SUT achieves the same performance as strong baseline models while only using half computation and parameters on WMT'14 and strong generalization results on formal language tasks (Logical inference and CFQ). The new halting mechanism also enables around 50\% reduction in computation during inference with very little performance decrease on formal language tasks.
Abstract（参考訳）: Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。経験的証拠は、UTは形式言語タスクにおいてVanilla Transformers (VTs) よりも構成的一般化が優れていることを示している。パラメータ共有はまた、VTよりもパラメータ効率が良い。その多くの利点にもかかわらず、UTパラメータのスケーリングはVTのスケールアップよりもはるかに計算量とメモリ集約性が高い。本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用して,パラメータ効率と一般化能力を保ちながら,UTの計算複雑性を低減するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。実験の結果,SUT は WMT'14 上での半計算とパラメータのみを使用し,形式言語タスク(論理推論とCFQ)上での強い一般化結果のみを用いて,強いベースラインモデルと同じ性能を達成することがわかった。新しい停止機構はまた、形式言語タスクのパフォーマンスをほとんど低下させることなく、推論中の計算量を約50\%削減できる。

関連論文リスト

Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning [6.346469177254699]
本稿ではトランス層間における重み共有の構造化フレームワークを提案する。 CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。提案手法は,アテンション投影行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減する。
論文参考訳（メタデータ） (2025-08-06T16:06:43Z)
Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking [51.154226183713405]
本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。 ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
論文参考訳（メタデータ） (2025-02-19T16:02:23Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
HUT: A More Computation Efficient Fine-Tuning Method With Hadamard Updated Transformation [6.954348219088321]
下流タスクのための微調整済み言語モデルが、NLPで素晴らしい成果を上げている。モデルパラメータが急速に大きくなるため、微調整された全てのパラメータは実用的ではない。本稿では,元のパラメータから更新パラメータへの変換を直接構成する,直接更新変換(UT)パラダイムを提案する。
論文参考訳（メタデータ） (2024-09-20T13:42:17Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Attention Is Not All You Need Anymore [3.9693969407364427]
本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
論文参考訳（メタデータ） (2023-08-15T09:24:38Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文参考訳（メタデータ） (2021-01-01T13:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。