論文の概要: Sneaking Syntax into Transformer Language Models with Tree Regularization
- arxiv url: http://arxiv.org/abs/2411.18885v1
- Date: Thu, 28 Nov 2024 03:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:57.574766
- Title: Sneaking Syntax into Transformer Language Models with Tree Regularization
- Title(参考訳): 木規則化を伴う変圧器言語モデルへのスニーキング構文解析
- Authors: Ananjan Nandi, Christopher D. Manning, Shikhar Murty,
- Abstract要約: 構文的帰納バイアスの導入は、トランスフォーマー言語モデルにおけるより堅牢でデータ効率のよい学習を解放する可能性がある。
このような構造を組み込む既存の方法は、モデルを大幅に制限する。
TreeRegは、逆NLIベンチマークのパフォーマンスを41.2ポイント削減する。
- 参考スコア(独自算出の注目度): 33.74552367356904
- License:
- Abstract: While compositional accounts of human language understanding are based on a hierarchical tree-like process, neural models like transformers lack a direct inductive bias for such tree structures. Introducing syntactic inductive biases could unlock more robust and data-efficient learning in transformer language models (LMs), but existing methods for incorporating such structure greatly restrict models, either limiting their expressivity or increasing inference complexity. This work instead aims to softly inject syntactic inductive biases into given transformer circuits, through a structured regularizer. We introduce TREEREG, an auxiliary loss function that converts bracketing decisions from silver parses into a set of differentiable orthogonality constraints on vector hidden states. TREEREG integrates seamlessly with the standard LM objective, requiring no architectural changes. LMs pre-trained with TreeReg on natural language corpora such as WikiText-103 achieve up to 10% lower perplexities on out-of-distribution data and up to 9.5 point improvements in syntactic generalization, requiring less than half the training data to outperform standard LMs. TreeReg still provides gains for pre-trained LLMs: Continued pre-training of Sheared Llama with TreeReg results in improved syntactic generalization, and fine-tuning on MultiNLI with TreeReg mitigates degradation of performance on adversarial NLI benchmarks by 41.2 points.
- Abstract(参考訳): 人間の言語理解の構成的説明は階層的な木のようなプロセスに基づいているが、トランスフォーマーのようなニューラルモデルはそのような木構造に対して直接帰納的バイアスを欠いている。
構文的帰納バイアスの導入は、トランスフォーマー言語モデル(LM)においてより堅牢でデータ効率のよい学習を解放する可能性があるが、そのような構造を組み込む既存の方法は、表現性を制限するか推論の複雑さを増大させるかのどちらかで、モデルを大幅に制限する。
この研究は、構造化された正則化器を通して、任意のトランス回路に構文的誘導バイアスをソフトに注入することを目的としている。
本稿では,銀パースからのブラケット決定をベクトル隠蔽状態における微分直交制約の集合に変換する補助損失関数 TREEREG を紹介する。
TREEREGは標準のLM目標とシームレスに統合され、アーキテクチャの変更は不要である。
WikiText-103のような自然言語コーパスでTreeRegで事前訓練されたLMは、配布外データに対して最大10%の難易度を実現し、構文一般化において最大9.5ポイントの改善を達成し、標準のLMを上回るトレーニングデータの半分未満を必要とした。
TreeRegは、Shered LlamaとTreeRegの継続事前トレーニングにより、構文的一般化が改善され、TtreeRegによるMultiNLIの微調整により、逆NLIベンチマークのパフォーマンスが41.2ポイント低下する。
関連論文リスト
- Soft regression trees: a model variant and a decomposition training algorithm [0.24578723416255752]
そこで本研究では,各入力ベクトルに対して,単一の葉ノードに関連付けられた線形回帰として定義する,ソフト多変量回帰木(SRT)の新たな変種を提案する。
SRTは条件付き計算特性、すなわち各予測は少数のノードに依存する。
15のよく知られたデータセットの実験により、従来のソフトレグレッションツリーと比較して、我々のSRTと分解アルゴリズムは高い精度とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2025-01-10T13:06:36Z) - Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision [4.665860995185884]
樹木の植え付けという新しい手法を提案する。
構文構造を明示的に生成する代わりに、一方向トランスフォーマーLMの注目重みに木を「移植」する。
Tree-Planted Transformerは、基礎となるTransformer LMの推論効率を変更することなく、SLMからトレーニング効率を継承する。
論文 参考訳(メタデータ) (2024-02-20T03:37:24Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。