論文の概要: Tree-Planted Transformers: Large Language Models with Implicit Syntactic
Supervision
- arxiv url: http://arxiv.org/abs/2402.12691v1
- Date: Tue, 20 Feb 2024 03:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:08:00.562649
- Title: Tree-Planted Transformers: Large Language Models with Implicit Syntactic
Supervision
- Title(参考訳): 木平面変圧器:暗黙の構文スーパービジョンを持つ大言語モデル
- Authors: Ryo Yoshida, Taiga Someya, Yohei Oseki
- Abstract要約: そこで本研究では,トランスフォーマーLMの注意重みに木を暗黙的に「植木」することで,自然言語の構文構造を反映する,木植木という新しい手法を提案する。
具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。
- 参考スコア(独自算出の注目度): 5.243960169933977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success thanks to
scalability on large text corpora, but have some drawback in training
efficiency. In contrast, Syntactic Language Models (SLMs) can be trained
efficiently to reach relatively high performance thanks to syntactic
supervision, but have trouble with scalability. Thus, given these complementary
advantages of LLMs and SLMs, it is necessary to develop an architecture that
integrates the scalability of LLMs with the training efficiency of SLMs, namely
Syntactic Large Language Models (SLLM). In this paper, we propose a novel
method dubbed tree-planting: implicitly "plant" trees into attention weights of
Transformer LMs to reflect syntactic structures of natural language.
Specifically, Transformer LMs trained with tree-planting will be called
Tree-Planted Transformers (TPT), which learn syntax on small treebanks via
tree-planting and then scale on large text corpora via continual learning with
syntactic scaffolding. Targeted syntactic evaluations on the SyntaxGym
benchmark demonstrated that TPTs, despite the lack of explicit syntactic
supervision, significantly outperformed various SLMs with explicit syntactic
supervision that generate hundreds of syntactic structures in parallel,
suggesting that tree-planting and TPTs are the promising foundation for SLLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、大規模テキストコーパスのスケーラビリティによって大きな成功を収めているが、トレーニング効率の欠点がある。
対照的に、構文言語モデル(slm)は、構文の監督によって比較的高いパフォーマンスに達するために効率的に訓練できるが、スケーラビリティに問題がある。
したがって、これらのLLMとSLMの相補的な優位性を考えると、LSLMのスケーラビリティとSLMの訓練効率、すなわちSyntactic Large Language Models (SLLM) を統合するアーキテクチャを開発する必要がある。
本稿では,自然言語の構文構造を反映するために,木を変圧器lmsの注意重みに暗黙的に「植える」新しい手法を提案する。
具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。
SyntaxGymベンチマークによる構文評価の結果、TPTは明示的な統語的監督の欠如にもかかわらず、数百の統語的構造を並列に生成する明示的な統語的監督を持つ様々なSLMよりも優れており、樹植とTPTがSLLMの有望な基盤であることを示唆している。
関連論文リスト
- Generative Pretrained Structured Transformers: Unsupervised Syntactic
Language Models at Scale [39.24972628990943]
原文のスクラッチから事前学習が可能な大規模教師なしSLM(Generative Pretrained Structured Transformers, GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
GPSTは、左から右への文法誘導において、既存の教師なしSLMを著しく上回る。
論文 参考訳(メタデータ) (2024-03-13T06:54:47Z) - Tree-Based Hard Attention with Self-Motivation for Large Language Models [7.2677650379517775]
大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。
階層的なテキスト構造を扱うように特別に調整されていない。
本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。