論文の概要: Bird-Eye Transformers for Text Generation Models
- arxiv url: http://arxiv.org/abs/2210.03985v1
- Date: Sat, 8 Oct 2022 09:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:25:47.763409
- Title: Bird-Eye Transformers for Text Generation Models
- Title(参考訳): テキスト生成モデルのための鳥眼トランスフォーマー
- Authors: Lei Sha, Yuhang Song, Yordan Yordanov, Tommaso Salvatori, Thomas
Lukasiewicz
- Abstract要約: 本稿では,鳥眼トランス (Bird-eye transformer, BET) と呼ばれる新しいアーキテクチャを提案する。
提案手法は,データベース上のベースライントランスフォーマーアーキテクチャよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 49.47825106383972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become an indispensable module for text generation models
since their great success in machine translation. Previous works attribute
the~success of transformers to the query-key-value dot-product attention, which
provides a robust inductive bias by the fully connected token graphs. However,
we found that self-attention has a severe limitation. When predicting the
(i+1)-th token, self-attention only takes the i-th token as an information
collector, and it tends to give a high attention weight to those tokens similar
to itself. Therefore, most of the historical information that occurred before
the i-th token is not taken into consideration. Based on this observation, in
this paper, we propose a new architecture, called bird-eye transformer(BET),
which goes one step further to improve the performance of transformers by
reweighting self-attention to encourage it to focus more on important
historical information. We have conducted experiments on multiple text
generation tasks, including machine translation (2 datasets) and language
models (3 datasets). These experimental~results show that our proposed model
achieves a better performance than the baseline transformer architectures
on~all~datasets. The code is released at:
\url{https://sites.google.com/view/bet-transformer/home}.
- Abstract(参考訳): トランスフォーマーは、機械翻訳の成功以来、テキスト生成モデルにとって欠かせないモジュールとなっている。
以前の研究は、トランスフォーマーがクェリキー値のドット積の注意に起因しており、完全に連結されたトークングラフによる堅牢な帰納バイアスを与えている。
しかし,自己注意には厳しい限界があることが判明した。
i+1)-thトークンを予測する場合、自己注意はi-thトークンのみを情報収集として取り、それと同じようなトークンに対して高い注意重みを与える傾向がある。
したがって、iトークン以前に発生した歴史的情報のほとんどは考慮されていない。
本稿では,鳥眼トランスフォーマー(BET)と呼ばれる新しいアーキテクチャを提案する。このアーキテクチャは,自己注意を再重み付けし,重要な歴史的情報にもっと焦点を合わせることで,トランスフォーマーの性能を向上させるための一歩である。
我々は,機械翻訳(2データセット)や言語モデル(3データセット)など,複数のテキスト生成タスクの実験を行った。
これらの実験結果から,提案手法は,~all~datasetsのベースライントランスフォーマタアーキテクチャよりも優れた性能が得られることがわかった。
コードは: \url{https://sites.google.com/view/bet-transformer/home} でリリースされる。
関連論文リスト
- Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。