論文の概要: AutoTrans: Automating Transformer Design via Reinforced Architecture
Search
- arxiv url: http://arxiv.org/abs/2009.02070v2
- Date: Sun, 30 May 2021 12:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:59:38.376046
- Title: AutoTrans: Automating Transformer Design via Reinforced Architecture
Search
- Title(参考訳): AutoTrans: 強化アーキテクチャ検索によるトランスフォーマー設計の自動化
- Authors: Wei Zhu, Xiaoling Wang, Xipeng Qiu, Yuan Ni, Guotong Xie
- Abstract要約: 本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 52.48985245743108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though the transformer architectures have shown dominance in many natural
language understanding tasks, there are still unsolved issues for the training
of transformer models, especially the need for a principled way of warm-up
which has shown importance for stable training of a transformer, as well as
whether the task at hand prefer to scale the attention product or not. In this
paper, we empirically explore automating the design choices in the transformer
model, i.e., how to set layer-norm, whether to scale, number of layers, number
of heads, activation function, etc, so that one can obtain a transformer
architecture that better suits the tasks at hand. RL is employed to navigate
along search space, and special parameter sharing strategies are designed to
accelerate the search. It is shown that sampling a proportion of training data
per epoch during search help to improve the search quality. Experiments on the
CoNLL03, Multi-30k, IWSLT14 and WMT-14 shows that the searched transformer
model can outperform the standard transformers. In particular, we show that our
learned model can be trained more robustly with large learning rates without
warm-up.
- Abstract(参考訳): トランスフォーマーのアーキテクチャは多くの自然言語理解タスクにおいて支配的であるが、トランスフォーマーモデルのトレーニングには、特にトランスフォーマーの安定したトレーニングに重要であることを示す原則的なウォームアップの必要性や、手前のタスクが注意製品をスケールすることを好むかどうかといった、未解決の問題がある。
本稿では,トランスフォーマーモデルにおける設計選択の自動化,すなわち,階層ノルムの設定方法,スケールの有無,レイヤ数,ヘッド数,アクティベーション関数などについて実験的に検討する。
rlは探索空間をナビゲートするために用いられ、特別なパラメータ共有戦略は探索を加速するように設計されている。
その結果,検索期間中のトレーニングデータの割合は,検索品質の向上に役立つことがわかった。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
特に、我々の学習モデルはウォームアップなしで大きな学習率でより堅牢に訓練できることを示す。
関連論文リスト
- Comprehensive Performance Modeling and System Design Insights for Foundation Models [1.4455936781559149]
生成AI、特に大きなトランスフォーマーモデルは、科学や産業においてHPCシステム設計を推進している。
本稿では, トランスモデルの性能特性を分析し, トランスモデルに対する感度, 並列化戦略, HPCシステムの特徴について考察する。
本分析では,システム機能を念頭に置いて,異なるトランスフォーマー型の性能モデリングを行う必要があることを強調した。
論文 参考訳(メタデータ) (2024-09-30T22:56:42Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。