論文の概要: Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models
- arxiv url: http://arxiv.org/abs/2310.19089v1
- Date: Sun, 29 Oct 2023 17:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:26:07.175567
- Title: Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models
- Title(参考訳): プッシュダウンレイヤ: トランスフォーマー言語モデルにおける再帰構造をエンコードする
- Authors: Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning
- Abstract要約: 再帰は人間の言語の特徴であり、本質的には自己注意に挑戦する。
この作業では、新しいセルフアテンション層であるPushdown Layersを導入している。
プッシュダウン層を備えたトランスフォーマーは、劇的に改善され、3.5倍の高効率な構文一般化を実現した。
- 参考スコア(独自算出の注目度): 86.75729087623259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursion is a prominent feature of human language, and fundamentally
challenging for self-attention due to the lack of an explicit recursive-state
tracking mechanism. Consequently, Transformer language models poorly capture
long-tail recursive structure and exhibit sample-inefficient syntactic
generalization. This work introduces Pushdown Layers, a new self-attention
layer that models recursive state via a stack tape that tracks estimated depths
of every token in an incremental parse of the observed prefix. Transformer LMs
with Pushdown Layers are syntactic language models that autoregressively and
synchronously update this stack tape as they predict new tokens, in turn using
the stack tape to softly modulate attention over tokens -- for instance,
learning to "skip" over closed constituents. When trained on a corpus of
strings annotated with silver constituency parses, Transformers equipped with
Pushdown Layers achieve dramatically better and 3-5x more sample-efficient
syntactic generalization, while maintaining similar perplexities. Pushdown
Layers are a drop-in replacement for standard self-attention. We illustrate
this by finetuning GPT2-medium with Pushdown Layers on an automatically parsed
WikiText-103, leading to improvements on several GLUE text classification
tasks.
- Abstract(参考訳): 再帰は人間の言語の特徴であり、明示的な再帰的状態追跡機構が欠如しているため、自己注意には根本的に困難である。
その結果、トランスフォーマー言語モデルはロングテール再帰構造をうまく捉えず、サンプル非効率な構文一般化を示す。
これは、観測されたプレフィックスのインクリメンタルなパースで、各トークンの推定深さを追跡するスタックテープを介して再帰状態をモデル化する、新しいセルフアテンション層である。
プッシュダウンレイヤを備えたトランスフォーマーLMは、新しいトークンを予測する際に、自動回帰的に同期的にこのスタックテープを更新する構文言語モデルである。
銀構成構文解析でアノテートされた文字列のコーパスでトレーニングすると、プッシュダウン層を備えたトランスフォーマーは、類似のパープレキシティを維持しつつ、サンプル効率の高い構文一般化を劇的に改善し、3〜5倍向上する。
Pushdown Layersは、標準のセルフアテンションの代替となる。
我々は、自動的に解析されたWikiText-103上で、Pushdown LayersでGPT2-mediumを微調整することにより、GLUEテキスト分類タスクの改善を図示した。
関連論文リスト
- Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Semantic Parsing in Task-Oriented Dialog with Recursive Insertion-based
Encoder [6.507504084891086]
本稿では,タスク指向対話における意味解析のための再帰型Insertion-based entity recognition(RINE)手法を提案する。
RINEは,対話型セマンティック解析ベンチマークTOPの低リソース版と高リソース版において,最先端のマッチング精度を実現する。
提案手法は推論時のシーケンス・ツー・シーケンス・モデルよりも2-3.5倍高速である。
論文 参考訳(メタデータ) (2021-09-09T18:23:45Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。