Fugu-MT 論文翻訳(概要): Sneaking Syntax into Transformer Language Models with Tree Regularization

論文の概要: Sneaking Syntax into Transformer Language Models with Tree Regularization

arxiv url: http://arxiv.org/abs/2411.18885v1
Date: Thu, 28 Nov 2024 03:27:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.689572
Title: Sneaking Syntax into Transformer Language Models with Tree Regularization
Title（参考訳）: 木規則化を伴う変圧器言語モデルへのスニーキング構文解析
Authors: Ananjan Nandi, Christopher D. Manning, Shikhar Murty,
Abstract要約: 構文的帰納バイアスの導入は、トランスフォーマー言語モデルにおけるより堅牢でデータ効率のよい学習を解放する可能性がある。このような構造を組み込む既存の方法は、モデルを大幅に制限する。 TreeRegは、逆NLIベンチマークのパフォーマンスを41.2ポイント削減する。
参考スコア（独自算出の注目度）: 33.74552367356904
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: While compositional accounts of human language understanding are based on a hierarchical tree-like process, neural models like transformers lack a direct inductive bias for such tree structures. Introducing syntactic inductive biases could unlock more robust and data-efficient learning in transformer language models (LMs), but existing methods for incorporating such structure greatly restrict models, either limiting their expressivity or increasing inference complexity. This work instead aims to softly inject syntactic inductive biases into given transformer circuits, through a structured regularizer. We introduce TREEREG, an auxiliary loss function that converts bracketing decisions from silver parses into a set of differentiable orthogonality constraints on vector hidden states. TREEREG integrates seamlessly with the standard LM objective, requiring no architectural changes. LMs pre-trained with TreeReg on natural language corpora such as WikiText-103 achieve up to 10% lower perplexities on out-of-distribution data and up to 9.5 point improvements in syntactic generalization, requiring less than half the training data to outperform standard LMs. TreeReg still provides gains for pre-trained LLMs: Continued pre-training of Sheared Llama with TreeReg results in improved syntactic generalization, and fine-tuning on MultiNLI with TreeReg mitigates degradation of performance on adversarial NLI benchmarks by 41.2 points.
Abstract（参考訳）: 人間の言語理解の構成的説明は階層的な木のようなプロセスに基づいているが、トランスフォーマーのようなニューラルモデルはそのような木構造に対して直接帰納的バイアスを欠いている。構文的帰納バイアスの導入は、トランスフォーマー言語モデル(LM)においてより堅牢でデータ効率のよい学習を解放する可能性があるが、そのような構造を組み込む既存の方法は、表現性を制限するか推論の複雑さを増大させるかのどちらかで、モデルを大幅に制限する。この研究は、構造化された正則化器を通して、任意のトランス回路に構文的誘導バイアスをソフトに注入することを目的としている。本稿では,銀パースからのブラケット決定をベクトル隠蔽状態における微分直交制約の集合に変換する補助損失関数 TREEREG を紹介する。 TREEREGは標準のLM目標とシームレスに統合され、アーキテクチャの変更は不要である。 WikiText-103のような自然言語コーパスでTreeRegで事前訓練されたLMは、配布外データに対して最大10%の難易度を実現し、構文一般化において最大9.5ポイントの改善を達成し、標準のLMを上回るトレーニングデータの半分未満を必要とした。 TreeRegは、Shered LlamaとTreeRegの継続事前トレーニングにより、構文的一般化が改善され、TtreeRegによるMultiNLIの微調整により、逆NLIベンチマークのパフォーマンスが41.2ポイント低下する。

関連論文リスト

Soft regression trees: a model variant and a decomposition training algorithm [0.24578723416255752]
そこで本研究では,各入力ベクトルに対して,単一の葉ノードに関連付けられた線形回帰として定義する,ソフト多変量回帰木(SRT)の新たな変種を提案する。 SRTは条件付き計算特性、すなわち各予測は少数のノードに依存する。 15のよく知られたデータセットの実験により、従来のソフトレグレッションツリーと比較して、我々のSRTと分解アルゴリズムは高い精度とロバスト性が得られることが示された。
論文参考訳（メタデータ） (2025-01-10T13:06:36Z)
Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。近年の作業では、草稿の伐採によってこの方法が進歩している。再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文参考訳（メタデータ） (2024-02-21T22:57:49Z)
Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision [4.665860995185884]
樹木の植え付けという新しい手法を提案する。構文構造を明示的に生成する代わりに、一方向トランスフォーマーLMの注目重みに木を「移植」する。 Tree-Planted Transformerは、基礎となるTransformer LMの推論効率を変更することなく、SLMからトレーニング効率を継承する。
論文参考訳（メタデータ） (2024-02-20T03:37:24Z)
Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文参考訳（メタデータ） (2024-01-21T02:29:12Z)
Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。 DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文参考訳（メタデータ） (2023-06-01T14:46:34Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文参考訳（メタデータ） (2020-10-09T17:47:16Z)
Transformer-Based Neural Text Generation with Syntactic Guidance [0.0]
テキスト生成の統語指導として(部分的)選挙区構文解析木を用いた場合の問題点について検討する。提案手法は,まず部分的テンプレート構文解析木を入力元テキストに適した完全分岐構文解析木に拡張する。本手法は意味論的・統語論的にSOTAモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-10-05T01:33:58Z)
Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文参考訳（メタデータ） (2020-02-19T08:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。