論文の概要: Trees in transformers: a theoretical analysis of the Transformer's
ability to represent trees
- arxiv url: http://arxiv.org/abs/2112.11913v1
- Date: Thu, 16 Dec 2021 00:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:35:41.201486
- Title: Trees in transformers: a theoretical analysis of the Transformer's
ability to represent trees
- Title(参考訳): 変圧器の木--木を表す変圧器の能力に関する理論的解析
- Authors: Qi He, Jo\~ao Sedoc, Jordan Rodu
- Abstract要約: まず、木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力について分析する。
これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味している。
合成データを用いて実験を行い,木の位置情報を明示的に符号化した変換器と比較して,標準変換器の精度が同等であることが確認された。
- 参考スコア(独自算出の注目度): 6.576972696596151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer networks are the de facto standard architecture in natural
language processing. To date, there are no theoretical analyses of the
Transformer's ability to capture tree structures. We focus on the ability of
Transformer networks to learn tree structures that are important for tree
transduction problems. We first analyze the theoretical capability of the
standard Transformer architecture to learn tree structures given enumeration of
all possible tree backbones, which we define as trees without labels. We then
prove that two linear layers with ReLU activation function can recover any tree
backbone from any two nonzero, linearly independent starting backbones. This
implies that a Transformer can learn tree structures well in theory. We conduct
experiments with synthetic data and find that the standard Transformer achieves
similar accuracy compared to a Transformer where tree position information is
explicitly encoded, albeit with slower convergence. This confirms empirically
that Transformers can learn tree structures.
- Abstract(参考訳): トランスフォーマーネットワークは自然言語処理におけるデファクトスタンダードアーキテクチャである。
現在、トランスフォーマーのツリー構造を捉える能力に関する理論的分析は行われていない。
我々はトランスフォーマーネットワークがツリーのトランスダクション問題に重要な木構造を学習する能力に焦点をあてる。
まず,可能なすべての木を列挙した木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力を解析し,ラベルのない木と定義する。
次に、ReLUアクティベーション関数を持つ2つの線形層が、2つの非ゼロ独立スタートバックボーンから任意の木のバックボーンを復元できることを証明する。
これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味する。
合成データを用いて実験を行い,木の位置情報が明示的にエンコードされる変圧器と比較して,標準変圧器の精度が同等であることを確認した。
これは、Transformerがツリー構造を学習できることを実証的に確認する。
関連論文リスト
- Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。
ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。
木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文 参考訳(メタデータ) (2024-11-25T23:53:46Z) - TreeCoders: Trees of Transformers [0.0]
トランスフォーマーツリーの新しいファミリーであるTreeCodersを紹介します。
トランスフォーマーはノードとして機能し、ジェネリック分類器は最高の子を選択することを学ぶ。
TreeCodersは当然、分散実装に役立ちます。
論文 参考訳(メタデータ) (2024-11-11T18:40:04Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Transformer visualization via dictionary learning: contextualized
embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。
可視化により,変換因子によって得られた階層的意味構造を実演する。
この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文 参考訳(メタデータ) (2021-03-29T20:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。