論文の概要: Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision
- arxiv url: http://arxiv.org/abs/2402.12691v2
- Date: Thu, 6 Jun 2024 13:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:22:40.162385
- Title: Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision
- Title(参考訳): 木平面変圧器:暗黙の構文シュミレーションを持つ一方向変圧器言語モデル
- Authors: Ryo Yoshida, Taiga Someya, Yohei Oseki,
- Abstract要約: 樹木の植え付けという新しい手法を提案する。
構文構造を明示的に生成する代わりに、一方向トランスフォーマーLMの注目重みに木を「移植」する。
Tree-Planted Transformerは、基礎となるTransformer LMの推論効率を変更することなく、SLMからトレーニング効率を継承する。
- 参考スコア(独自算出の注目度): 4.665860995185884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syntactic Language Models (SLMs) can be trained efficiently to reach relatively high performance; however, they have trouble with inference efficiency due to the explicit generation of syntactic structures. In this paper, we propose a new method dubbed tree-planting: instead of explicitly generating syntactic structures, we "plant" trees into attention weights of unidirectional Transformer LMs to implicitly reflect syntactic structures of natural language. Specifically, unidirectional Transformer LMs trained with tree-planting will be called Tree-Planted Transformers (TPT), which inherit the training efficiency from SLMs without changing the inference efficiency of their underlying Transformer LMs. Targeted syntactic evaluations on the SyntaxGym benchmark demonstrated that TPTs, despite the lack of explicit generation of syntactic structures, significantly outperformed not only vanilla Transformer LMs but also various SLMs that generate hundreds of syntactic structures in parallel. This result suggests that TPTs can learn human-like syntactic knowledge as data-efficiently as SLMs while maintaining the modeling space of Transformer LMs unchanged.
- Abstract(参考訳): 構文言語モデル(SLM)は比較的高い性能を達成するために効率的に訓練することができるが、構文構造の明示的な生成のために推論効率に問題がある。
本稿では,一方向トランスフォーマーLMの注目重みに木を「移植」することで,自然言語の構文構造を暗黙的に反映させる手法を提案する。
具体的には、木移植で訓練された一方向トランスフォーマーLMをTree-Planted Transformer (TPT)と呼び、基礎となるトランスフォーマーLMの推論効率を変更することなく、SLMからトレーニング効率を継承する。
SyntaxGymベンチマークのターゲットとした構文評価では、TPTは、明確な構文構造が生成されていないにもかかわらず、バニラトランスフォーマーLMだけでなく、数百の構文構造を並列に生成する様々なSLMよりも著しく優れていた。
この結果は,トランスフォーマーLMのモデリング空間を一定に保ちながら,人間的な構文知識をSLMのようにデータ効率よく学習できることを示唆している。
関連論文リスト
- Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。
ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。
木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文 参考訳(メタデータ) (2024-11-25T23:53:46Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Causal Transformers Perform Below Chance on Recursive Nested
Constructions, Unlike Humans [7.897143833642971]
2種類のネスト構造に対して4種類のトランスフォーマーLMを試験した。
トランスフォーマーは,短範囲の組み込み依存に対してほぼ完璧な性能を実現する。
長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベル以下に急落する。
論文 参考訳(メタデータ) (2021-10-14T09:22:17Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。