論文の概要: Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations
- arxiv url: http://arxiv.org/abs/2407.04543v1
- Date: Fri, 5 Jul 2024 14:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:10:54.645475
- Title: Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations
- Title(参考訳): 構文変換の事前学習による構造誘導ビアーゼの強化
- Authors: Matthias Lindemann, Alexander Koller, Ivan Titov,
- Abstract要約: 中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
- 参考スコア(独自算出の注目度): 75.14793516745374
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Models need appropriate inductive biases to effectively learn from small amounts of data and generalize systematically outside of the training distribution. While Transformers are highly versatile and powerful, they can still benefit from enhanced structural inductive biases for seq2seq tasks, especially those involving syntactic transformations, such as converting active to passive voice or semantic parsing. In this paper, we propose to strengthen the structural inductive bias of a Transformer by intermediate pre-training to perform synthetically generated syntactic transformations of dependency trees given a description of the transformation. Our experiments confirm that this helps with few-shot learning of syntactic tasks such as chunking, and also improves structural generalization for semantic parsing. Our analysis shows that the intermediate pre-training leads to attention heads that keep track of which syntactic transformation needs to be applied to which token, and that the model can leverage these attention heads on downstream tasks.
- Abstract(参考訳): モデルは、少量のデータから効果的に学習し、トレーニング分布の外で体系的に一般化するために適切な帰納バイアスを必要とする。
Transformerは非常に汎用的で強力だが、Seq2seqタスク、特にアクティブな音声への変換やセマンティックパーシングといった構文変換に関わるタスクに対して、構造的帰納バイアスの強化による恩恵を受けることができる。
本稿では,トランスフォーマーの構造的帰納バイアスを中間的事前学習により強化し,その変換を記述した依存性木を合成的に生成した構文変換を行う。
本実験は,チャンキングなどの構文的タスクの素早い学習を支援するとともに,意味解析のための構造的一般化も向上することを確認した。
分析の結果、中間的事前学習はどの統語変換をどのトークンに適用する必要があるかを追尾するアテンションヘッドとなり、モデルがこれらのアテンションヘッドを下流タスクで活用できることが判明した。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Transduce: learning transduction grammars for string transformation [0.0]
帰納的バイアスを伴わない1つまたは2つの正の例から位置変換を効率的に学習する新しいアルゴリズムTransduceを提案する。
実験により,Transduceは1つないし2つの正の例から効率よく位置変換を学習できることを示した。
論文 参考訳(メタデータ) (2023-12-14T07:59:02Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Do Syntax Trees Help Pre-trained Transformers Extract Information? [8.133145094593502]
本稿では,情報抽出タスクにおいて,依存木を事前学習した変換器に組み込むことの有用性について検討する。
依存関係構造を組み込むための2つの異なる戦略を提案し,検討する。
それらの性能向上は,人間による注釈付き依存関係解析の可用性に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T17:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。