論文の概要: ETC: Encoding Long and Structured Inputs in Transformers
- arxiv url: http://arxiv.org/abs/2004.08483v5
- Date: Tue, 27 Oct 2020 16:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:51:02.979323
- Title: ETC: Encoding Long and Structured Inputs in Transformers
- Title(参考訳): ETC: 変換器における長文および構造化文のエンコード
- Authors: Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek,
Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li
Yang
- Abstract要約: 本稿では,新しいトランスフォーマーアーキテクチャである拡張トランスフォーマー構築(ETC)を提案し,標準トランスフォーマーアーキテクチャの2つの課題に対処する。
より長い入力に注意を向けるために,グローバルトークンと正規入力トークンの間に,新たなグローバルローカルアテンション機構を導入する。
長文および/または構造化された入力を必要とする4つの自然言語データセットについて、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 17.763733356907547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have advanced the state of the art in many Natural
Language Processing (NLP) tasks. In this paper, we present a new Transformer
architecture, Extended Transformer Construction (ETC), that addresses two key
challenges of standard Transformer architectures, namely scaling input length
and encoding structured inputs. To scale attention to longer inputs, we
introduce a novel global-local attention mechanism between global tokens and
regular input tokens. We also show that combining global-local attention with
relative position encodings and a Contrastive Predictive Coding (CPC)
pre-training objective allows ETC to encode structured inputs. We achieve
state-of-the-art results on four natural language datasets requiring long
and/or structured inputs.
- Abstract(参考訳): トランスフォーマーモデルは、多くの自然言語処理(NLP)タスクにおいて、技術の進歩を遂げている。
本稿では,入力長のスケーリングと構造化入力の符号化という,標準トランスフォーマーアーキテクチャにおける2つの課題に対処する,新しいトランスフォーマーアーキテクチャである拡張トランスフォーマー構築(ETC)を提案する。
そこで本研究では,グローバルトークンと正規入力トークンの間に新たなグローバルローカル注意機構を導入する。
また,大域的局所的注意と相対的位置符号化とコントラスト予測符号化(cpc)を組み合わせることで,etcが構造化入力を符号化できることを示した。
我々は,4つの自然言語データセットにおいて,長文および/または構造化された入力を必要とする最新結果を得る。
関連論文リスト
- Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Source Code Summarization with Structural Relative Position Guided
Transformer [19.828300746504148]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。
近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。
SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文 参考訳(メタデータ) (2022-02-14T07:34:33Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Do We Really Need Explicit Position Encodings for Vision Transformers? [29.7662570764424]
入力トークンの局所近傍に条件付き位置符号化方式を提案する。
PEGを用いた新しいモデルは、Visual Transformer (CPVT) と呼ばれ、任意の長さの入力シーケンスを自然に処理できる。
我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-02-22T10:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。