Fugu-MT 論文翻訳(概要): Do Transformer Modifications Transfer Across Implementations and Applications?

論文の概要: Do Transformer Modifications Transfer Across Implementations and Applications?

arxiv url: http://arxiv.org/abs/2102.11972v1
Date: Tue, 23 Feb 2021 22:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-25 13:45:14.499302
Title: Do Transformer Modifications Transfer Across Implementations and Applications?
Title（参考訳）: Transformer Modifications は実装と応用にまたがって移行するのか?
Authors: Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, Yanqi Zhou, Wei Li, Nan Ding, Jake Marcus, Adam Roberts, Colin Raffel
Abstract要約: 共用実験環境では,これらの修正の多くを総合的に評価する。ほとんどの修正は、パフォーマンスを有意義に改善しない。ほとんどの変圧器は、私たちが使ったものと同じか、比較的小さな変更で開発された。
参考スコア（独自算出の注目度）: 52.09138231841911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The research community has proposed copious modifications to the Transformer architecture since it was introduced over three years ago, relatively few of which have seen widespread adoption. In this paper, we comprehensively evaluate many of these modifications in a shared experimental setting that covers most of the common uses of the Transformer in natural language processing. Surprisingly, we find that most modifications do not meaningfully improve performance. Furthermore, most of the Transformer variants we found beneficial were either developed in the same codebase that we used or are relatively minor changes. We conjecture that performance improvements may strongly depend on implementation details and correspondingly make some recommendations for improving the generality of experimental results.
Abstract（参考訳）: 研究コミュニティは、3年以上前に導入されて以来、トランスフォーマーアーキテクチャの大規模な変更を提案してきた。本稿では,自然言語処理におけるTransformerの共通利用を網羅した共有実験環境において,これらの変更の多くを包括的に評価する。驚いたことに、ほとんどの変更はパフォーマンスを有意義に改善しない。さらに、Transformerの変種のほとんどは、私たちが使ったのと同じコードベースで開発されたか、比較的小さな変更だった。パフォーマンスの改善は実装の詳細に強く依存し、実験結果の一般性を改善するためのいくつかの推奨を行う可能性があると推測する。

関連論文リスト

General Transform: A Unified Framework for Adaptive Transform to Enhance Representations [0.0]
General Transform (GT) は、機械学習アプリケーション用に設計された適応型変換ベースの表現である。 GTは、データセットと関心のタスクに合わせて、データ駆動マッピングを学ぶ。 GTを組み込んだモデルは、コンピュータビジョンや自然言語処理タスクにまたがる従来の変換ベースのアプローチより優れている。
論文参考訳（メタデータ） (2025-05-08T06:01:11Z)
AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文参考訳（メタデータ） (2024-02-21T07:07:54Z)
Interpretation of the Transformer and Improvement of the Extractor [3.9693969407364427]
Transformerアーキテクチャが実行されてから6年以上が経ちました。驚いたことに、今日でもバニラトランスフォーマーアーキテクチャが広く使われている。トランスフォーマーアーキテクチャの深い理解と包括的な解釈の欠如により、トランスフォーマーアーキテクチャを改善することがより困難になる。
論文参考訳（メタデータ） (2023-11-21T15:36:20Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文参考訳（メタデータ） (2022-10-12T17:16:27Z)
A Closer Look into Transformer-Based Code Intelligence Through Code Transformation: Challenges and Opportunities [54.039855851891815]
トランスフォーマーベースのモデルは、多くのインテリジェントコーディングタスクにおいて最先端のパフォーマンスを示している。意味保存型コード変換がTransformerの性能に与える影響を実証研究する。
論文参考訳（メタデータ） (2022-07-09T15:02:39Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文参考訳（メタデータ） (2021-11-11T07:56:04Z)
Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文参考訳（メタデータ） (2021-02-12T17:01:35Z)
Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文参考訳（メタデータ） (2020-09-14T20:38:14Z)
Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。 BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文参考訳（メタデータ） (2020-02-14T18:41:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。