論文の概要: Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings
- arxiv url: http://arxiv.org/abs/2402.06492v1
- Date: Fri, 9 Feb 2024 15:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:28:55.123984
- Title: Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings
- Title(参考訳): 構造量化埋め込みによる変圧器の系統性誘導
- Authors: Yichen Jiang, Xiang Zhou, Mohit Bansal
- Abstract要約: トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
- 参考スコア(独自算出の注目度): 60.698130703909804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers generalize to novel compositions of structures and entities
after being trained on a complex dataset, but easily overfit on datasets of
insufficient complexity. We observe that when the training set is sufficiently
complex, the model encodes sentences that have a common syntactic structure
using a systematic attention pattern. Inspired by this observation, we propose
SQ-Transformer (Structurally Quantized) that explicitly encourages
systematicity in the embeddings and attention layers, even with a training set
of low complexity. At the embedding level, we introduce Structure-oriented
Vector Quantization (SoVQ) to cluster word embeddings into several classes of
structurally equivalent entities. At the attention level, we devise the
Systematic Attention Layer (SAL) and an alternative, Systematically Regularized
Layer (SRL) that operate on the quantized word embeddings so that sentences of
the same structure are encoded with invariant or similar attention patterns.
Empirically, we show that SQ-Transformer achieves stronger compositional
generalization than the vanilla Transformer on multiple low-complexity semantic
parsing and machine translation datasets. In our analysis, we show that SoVQ
indeed learns a syntactically clustered embedding space and SAL/SRL induces
generalizable attention patterns, which lead to improved systematicity.
- Abstract(参考訳): トランスフォーマーは複雑なデータセットでトレーニングされた後、構造やエンティティの新規な構成に一般化するが、複雑さが不十分なデータセットに容易に適合する。
トレーニングセットが十分に複雑である場合、モデルは、体系的な注意パターンを用いて、共通構文構造を持つ文を符号化する。
この観察から着想を得たsqトランスフォーマ(構造的に量子化)は,低複雑性のトレーニングセットであっても,埋め込み層や注意層の体系性を明示的に促進する。
組込みレベルでは、構造指向ベクトル量子化(sovq)を導入し、単語組込みを構造的に同値なエンティティのいくつかのクラスに分類する。
注意レベルでは、同じ構造の文が不変または類似の注意パターンでエンコードされるように、量子化された単語埋め込みで動作する体系的正規化層(SRL)と代替的な体系的注意層(SAL)を考案する。
経験的に、SQ-Transformerは、複数の低複雑さ意味解析と機械翻訳データセット上でバニラ変換器よりも強い構成一般化を実現する。
本分析では,SAL/SRLは構文的にクラスタ化された埋め込み空間を学習し,SAL/SRLは一般化可能な注意パターンを誘導し,体系性を向上することを示した。
関連論文リスト
- Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational
AutoEncoders [5.037881619912574]
本稿では,トランスフォーマーを用いたVAEにおける構造構文注入のための潜時空間分離法について検討する。
具体的には、グラフベースおよびシーケンシャルモデルの統合により、符号化段階で構文構造をどのように活用するかを検討する。
我々の経験的評価は、自然言語文と数学的表現に基づいて行われ、提案したエンドツーエンドのVAEアーキテクチャにより、潜在空間の全体構造がより良くなることを示している。
論文 参考訳(メタデータ) (2023-11-14T22:47:23Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Forming Trees with Treeformers [3.8073142980733]
トランスフォーマーのような最先端のニューラルネットワークモデルの多くは、そのアーキテクチャに明確な階層構造を持たない。
CKYアルゴリズムにインスパイアされた汎用エンコーダモジュールであるTreeformerを紹介する。
実験では, 階層構造をトランスフォーマーに組み込むことの利点を実証した。
論文 参考訳(メタデータ) (2022-07-14T14:39:30Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Iterated learning for emergent systematicity in VQA [3.977144385787228]
ニューラルモジュールネットワークは構成性に対するアーキテクチャ上のバイアスを持っている。
レイアウトとモジュールを共同学習する場合、構成性は自動的に発生せず、適切な構造を示すレイアウトの出現には明示的な圧力が必要です。
本研究では,自然における構成言語の出現に関する認知科学理論である反復学習を用いてこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-05-03T18:44:06Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。