Fugu-MT 論文翻訳(概要): Transformer on a Diet

論文の概要: Transformer on a Diet

arxiv url: http://arxiv.org/abs/2002.06170v1
Date: Fri, 14 Feb 2020 18:41:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-01 03:55:31.121110
Title: Transformer on a Diet
Title（参考訳）: ダイエットの変圧器
Authors: Chenguang Wang, Zihao Ye, Aston Zhang, Zheng Zhang, Alexander J. Smola
Abstract要約: トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。 BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
参考スコア（独自算出の注目度）: 81.09119185568296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer has been widely used thanks to its ability to capture sequence information in an efficient way. However, recent developments, such as BERT and GPT-2, deliver only heavy architectures with a focus on effectiveness. In this paper, we explore three carefully-designed light Transformer architectures to figure out whether the Transformer with less computations could produce competitive results. Experimental results on language model benchmark datasets hint that such trade-off is promising, and the light Transformer reduces 70% parameters at best, while obtains competitive perplexity compared to standard Transformer. The source code is publicly available.
Abstract（参考訳）: トランスフォーマーは、シーケンス情報を効率的にキャプチャする能力のおかげで、広く使われている。しかし、BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。本稿では,より少ない計算量を持つトランスフォーマーが競合する結果をもたらすかどうかを明らかにするために,慎重に設計された3つの光トランスアーキテクチャについて検討する。言語モデルベンチマークデータセットの実験結果から,そのようなトレードオフが期待できることが示唆され,ライトトランスフォーマーは70%のパラメータをベストに削減する一方で,標準トランスフォーマーと比較して競合的なパープレキシティを得ることができる。ソースコードは公開されている。

関連論文リスト

Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文参考訳（メタデータ） (2025-06-26T08:41:45Z)
Plain Transformers Can be Powerful Graph Learners [64.50059165186701]
研究者たちは、Transformerをグラフ学習に移行しようとしたが、ほとんどの高度なGraph Transformerは、普通のTransformerから遠く離れている。この研究は、普通のTransformerアーキテクチャが強力なグラフ学習者になれることを示した。
論文参考訳（メタデータ） (2025-04-17T02:06:50Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文参考訳（メタデータ） (2024-02-21T17:00:56Z)
Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。 The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文参考訳（メタデータ） (2023-10-17T01:59:07Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文参考訳（メタデータ） (2022-08-03T12:57:00Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
UniDrop: A Simple yet Effective Technique to Improve Transformer without Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文参考訳（メタデータ） (2021-04-11T07:43:19Z)
The Cascade Transformer: an Application for Efficient Answer Sentence Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文参考訳（メタデータ） (2020-05-05T23:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。