論文の概要: Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models
- arxiv url: http://arxiv.org/abs/2407.17406v1
- Date: Wed, 24 Jul 2024 16:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:05:35.499985
- Title: Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models
- Title(参考訳): 依存変換言語文法:依存構造を変換言語モデルに統合する
- Authors: Yida Zhao, Chao Lou, Kewei Tu,
- Abstract要約: 依存性変換文法(Dependency Transformer Grammars、DTG)は、依存関係ベースの帰納バイアスを持つトランスフォーマー言語モデルの新しいクラスである。
DTGは制約された注意パターンで依存性遷移システムをシミュレートする。
Transformer言語モデルベースラインと同等のパープレキシティを維持しながら、より優れた一般化を実現する。
- 参考スコア(独自算出の注目度): 42.46104516313823
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Syntactic Transformer language models aim to achieve better generalization through simultaneously modeling syntax trees and sentences. While prior work has been focusing on adding constituency-based structures to Transformers, we introduce Dependency Transformer Grammars (DTGs), a new class of Transformer language model with explicit dependency-based inductive bias. DTGs simulate dependency transition systems with constrained attention patterns by modifying attention masks, incorporate the stack information through relative positional encoding, and augment dependency arc representation with a combination of token embeddings and operation embeddings. When trained on a dataset of sentences annotated with dependency trees, DTGs achieve better generalization while maintaining comparable perplexity with Transformer language model baselines. DTGs also outperform recent constituency-based models, showing that dependency can better guide Transformer language models. Our code is released at https://github.com/zhaoyd1/Dep_Transformer_Grammars.
- Abstract(参考訳): Syntactic Transformer言語モデルは、構文木と文を同時にモデル化することで、より良い一般化を実現することを目的としている。
以前の作業では、Transformerにconstituency-based structureを追加することに重点を置いていたが、Dependency Transformer Grammars (DTGs)を紹介した。
DTGは、注意マスクの変更、相対的な位置エンコーディングによるスタック情報の統合、トークン埋め込みと操作埋め込みの組み合わせによる依存性アーク表現の強化により、制約された注意パターンによる依存性遷移システムをシミュレートする。
依存木で注釈付けされた文のデータセットでトレーニングすると、DTGはTransformer言語モデルベースラインと同等のパープレクティリティを維持しながら、より良い一般化を実現する。
DTGは最近の選挙区ベースモデルよりも優れており、依存関係がTransformer言語モデルをより良くガイドできることを示している。
私たちのコードはhttps://github.com/zhaoyd1/Dep_Transformer_Grammarsでリリースされています。
関連論文リスト
- Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models [2.07180164747172]
LinkTransformerは、人気のある文字列マッチングメソッドの親しみやすさと使いやすさを、ディープラーニングに拡張することを目的としている。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、トレーニング済みのトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれている。
論文 参考訳(メタデータ) (2023-09-02T01:45:27Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - E.T.: Entity-Transformers. Coreference augmented Neural Language Model
for richer mention representations via Entity-Transformer blocks [3.42658286826597]
本稿では,ニューラルネットワークモデル,特にGPT2におけるTransformer-blockアーキテクチャの拡張について述べる。
我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。
論文 参考訳(メタデータ) (2020-11-10T22:28:00Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。