論文の概要: Tree-Planted Transformers: Large Language Models with Implicit Syntactic
Supervision
- arxiv url: http://arxiv.org/abs/2402.12691v1
- Date: Tue, 20 Feb 2024 03:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:08:00.562649
- Title: Tree-Planted Transformers: Large Language Models with Implicit Syntactic
Supervision
- Title(参考訳): 木平面変圧器:暗黙の構文スーパービジョンを持つ大言語モデル
- Authors: Ryo Yoshida, Taiga Someya, Yohei Oseki
- Abstract要約: そこで本研究では,トランスフォーマーLMの注意重みに木を暗黙的に「植木」することで,自然言語の構文構造を反映する,木植木という新しい手法を提案する。
具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。
- 参考スコア(独自算出の注目度): 5.243960169933977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success thanks to
scalability on large text corpora, but have some drawback in training
efficiency. In contrast, Syntactic Language Models (SLMs) can be trained
efficiently to reach relatively high performance thanks to syntactic
supervision, but have trouble with scalability. Thus, given these complementary
advantages of LLMs and SLMs, it is necessary to develop an architecture that
integrates the scalability of LLMs with the training efficiency of SLMs, namely
Syntactic Large Language Models (SLLM). In this paper, we propose a novel
method dubbed tree-planting: implicitly "plant" trees into attention weights of
Transformer LMs to reflect syntactic structures of natural language.
Specifically, Transformer LMs trained with tree-planting will be called
Tree-Planted Transformers (TPT), which learn syntax on small treebanks via
tree-planting and then scale on large text corpora via continual learning with
syntactic scaffolding. Targeted syntactic evaluations on the SyntaxGym
benchmark demonstrated that TPTs, despite the lack of explicit syntactic
supervision, significantly outperformed various SLMs with explicit syntactic
supervision that generate hundreds of syntactic structures in parallel,
suggesting that tree-planting and TPTs are the promising foundation for SLLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、大規模テキストコーパスのスケーラビリティによって大きな成功を収めているが、トレーニング効率の欠点がある。
対照的に、構文言語モデル(slm)は、構文の監督によって比較的高いパフォーマンスに達するために効率的に訓練できるが、スケーラビリティに問題がある。
したがって、これらのLLMとSLMの相補的な優位性を考えると、LSLMのスケーラビリティとSLMの訓練効率、すなわちSyntactic Large Language Models (SLLM) を統合するアーキテクチャを開発する必要がある。
本稿では,自然言語の構文構造を反映するために,木を変圧器lmsの注意重みに暗黙的に「植える」新しい手法を提案する。
具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。
SyntaxGymベンチマークによる構文評価の結果、TPTは明示的な統語的監督の欠如にもかかわらず、数百の統語的構造を並列に生成する明示的な統語的監督を持つ様々なSLMよりも優れており、樹植とTPTがSLLMの有望な基盤であることを示唆している。
関連論文リスト
- Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。
ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。
木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文 参考訳(メタデータ) (2024-11-25T23:53:46Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Causal Transformers Perform Below Chance on Recursive Nested
Constructions, Unlike Humans [7.897143833642971]
2種類のネスト構造に対して4種類のトランスフォーマーLMを試験した。
トランスフォーマーは,短範囲の組み込み依存に対してほぼ完璧な性能を実現する。
長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベル以下に急落する。
論文 参考訳(メタデータ) (2021-10-14T09:22:17Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。