Fugu-MT 論文翻訳(概要): Tree-Planted Transformers: Large Language Models with Implicit Syntactic Supervision

論文の概要: Tree-Planted Transformers: Large Language Models with Implicit Syntactic Supervision

arxiv url: http://arxiv.org/abs/2402.12691v1
Date: Tue, 20 Feb 2024 03:37:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 17:08:00.562649
Title: Tree-Planted Transformers: Large Language Models with Implicit Syntactic Supervision
Title（参考訳）: 木平面変圧器:暗黙の構文スーパービジョンを持つ大言語モデル
Authors: Ryo Yoshida, Taiga Someya, Yohei Oseki
Abstract要約: そこで本研究では,トランスフォーマーLMの注意重みに木を暗黙的に「植木」することで,自然言語の構文構造を反映する,木植木という新しい手法を提案する。具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。
参考スコア（独自算出の注目度）: 5.243960169933977
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success thanks to scalability on large text corpora, but have some drawback in training efficiency. In contrast, Syntactic Language Models (SLMs) can be trained efficiently to reach relatively high performance thanks to syntactic supervision, but have trouble with scalability. Thus, given these complementary advantages of LLMs and SLMs, it is necessary to develop an architecture that integrates the scalability of LLMs with the training efficiency of SLMs, namely Syntactic Large Language Models (SLLM). In this paper, we propose a novel method dubbed tree-planting: implicitly "plant" trees into attention weights of Transformer LMs to reflect syntactic structures of natural language. Specifically, Transformer LMs trained with tree-planting will be called Tree-Planted Transformers (TPT), which learn syntax on small treebanks via tree-planting and then scale on large text corpora via continual learning with syntactic scaffolding. Targeted syntactic evaluations on the SyntaxGym benchmark demonstrated that TPTs, despite the lack of explicit syntactic supervision, significantly outperformed various SLMs with explicit syntactic supervision that generate hundreds of syntactic structures in parallel, suggesting that tree-planting and TPTs are the promising foundation for SLLMs.
Abstract（参考訳）: 大規模言語モデル(llm)は、大規模テキストコーパスのスケーラビリティによって大きな成功を収めているが、トレーニング効率の欠点がある。対照的に、構文言語モデル(slm)は、構文の監督によって比較的高いパフォーマンスに達するために効率的に訓練できるが、スケーラビリティに問題がある。したがって、これらのLLMとSLMの相補的な優位性を考えると、LSLMのスケーラビリティとSLMの訓練効率、すなわちSyntactic Large Language Models (SLLM) を統合するアーキテクチャを開発する必要がある。本稿では,自然言語の構文構造を反映するために,木を変圧器lmsの注意重みに暗黙的に「植える」新しい手法を提案する。具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。 SyntaxGymベンチマークによる構文評価の結果、TPTは明示的な統語的監督の欠如にもかかわらず、数百の統語的構造を並列に生成する明示的な統語的監督を持つ様々なSLMよりも優れており、樹植とTPTがSLLMの有望な基盤であることを示唆している。

関連論文リスト

Enhancing Latent Computation in Transformers with Latent Tokens [48.371764897314]
補助トークンを用いた大規模言語モデルの拡張が,モデル性能向上のための有望な戦略として浮上している。我々は遅延トークンと呼ばれる軽量な手法を導入し、これらは自然言語では解釈不能なダミートークンである。提案した潜在トークンは、トレーニング済みのTransformerとシームレスに統合され、パラメータ効率のよい方法で訓練され、推論時に柔軟に適用できる。
論文参考訳（メタデータ） (2025-05-19T02:35:53Z)
Sneaking Syntax into Transformer Language Models with Tree Regularization [33.74552367356904]
構文的帰納バイアスの導入は、トランスフォーマー言語モデルにおけるより堅牢でデータ効率のよい学習を解放する可能性がある。ここでは,銀パースからの括弧決定を微分可能性制約の集合に変換する補助的損失関数であるTreeRegを紹介する。 TreeRegは標準のLM目標とシームレスに統合され、アーキテクチャの変更は不要である。
論文参考訳（メタデータ） (2024-11-28T03:27:48Z)
Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文参考訳（メタデータ） (2024-11-25T23:53:46Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。 DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文参考訳（メタデータ） (2023-06-01T14:46:34Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Syntax-guided Localized Self-attention by Constituency Syntactic Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。外部の選挙区から直接文法構造を組み込むことができる。実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文参考訳（メタデータ） (2022-10-21T06:37:25Z)
Transformer Grammars: Augmenting Transformer Language Models with Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文参考訳（メタデータ） (2022-03-01T17:22:31Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
Causal Transformers Perform Below Chance on Recursive Nested Constructions, Unlike Humans [7.897143833642971]
2種類のネスト構造に対して4種類のトランスフォーマーLMを試験した。トランスフォーマーは,短範囲の組み込み依存に対してほぼ完璧な性能を実現する。長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベル以下に急落する。
論文参考訳（メタデータ） (2021-10-14T09:22:17Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文参考訳（メタデータ） (2020-02-19T08:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。