論文の概要: Multi-branch Attentive Transformer
- arxiv url: http://arxiv.org/abs/2006.10270v2
- Date: Sun, 26 Jul 2020 13:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:51:34.404761
- Title: Multi-branch Attentive Transformer
- Title(参考訳): マルチブランチ式対向変圧器
- Authors: Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li,
Tie-Yan Liu
- Abstract要約: 我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 152.07840447196384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the multi-branch architecture is one of the key ingredients to the
success of computer vision tasks, it has not been well investigated in natural
language processing, especially sequence learning tasks. In this work, we
propose a simple yet effective variant of Transformer called multi-branch
attentive Transformer (briefly, MAT), where the attention layer is the average
of multiple branches and each branch is an independent multi-head attention
layer. We leverage two training techniques to regularize the training:
drop-branch, which randomly drops individual branches during training, and
proximal initialization, which uses a pre-trained Transformer model to
initialize multiple branches. Experiments on machine translation, code
generation and natural language understanding demonstrate that such a simple
variant of Transformer brings significant improvements. Our code is available
at \url{https://github.com/HA-Transformer}.
- Abstract(参考訳): マルチブランチアーキテクチャはコンピュータビジョンタスクの成功の鍵となる要素の1つであるが、自然言語処理、特にシーケンス学習タスクでは十分に研究されていない。
本研究では,マルチブランチ・アテンショントランス(briefly, mat)と呼ばれる,複数枝のアテンション層が平均であり,各ブランチが独立したマルチヘッドアテンション層である簡易かつ効果的なトランスの変種を提案する。
訓練中に個々の枝をランダムに落下させるドロップブランチと,複数の枝を初期化するために事前学習したトランスフォーマーモデルを用いた近位初期化の2つの訓練手法を用いた。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
私たちのコードは \url{https://github.com/HA-Transformer} で利用可能です。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - Semantic-visual Guided Transformer for Few-shot Class-incremental
Learning [6.300141694311465]
本研究では,事前学習した機能バックボーンの機能抽出能力を向上させるために,セマンティック・ビジュアル・ガイド付きトランスフォーマー (SV-T) を開発した。
我々のSV-Tは、ベースクラスからのより監督的な情報を最大限に活用し、機能バックボーンのトレーニングロバスト性をさらに強化できます。
論文 参考訳(メタデータ) (2023-03-27T15:06:49Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Transformer over Pre-trained Transformer for Neural Text Segmentation
with Enhanced Topic Coherence [6.73258176462356]
それは、事前訓練されたトランスフォーマーを用いたボトムレベル文エンコーダと、文埋め込みに基づく上位レベルのトランスフォーマーベースのセグメンテーションモデルである。
実験の結果、Transformer$2$は、一般的に使われているセマンティックコヒーレンス尺度によって、最先端のテキストセグメンテーションモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2021-10-14T05:26:39Z) - Redesigning the Transformer Architecture with Insights from
Multi-particle Dynamical Systems [32.86421107987556]
我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。
時間的進化計画であるTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。
我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
論文 参考訳(メタデータ) (2021-09-30T14:01:06Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。