Fugu-MT 論文翻訳(概要): Trees in transformers: a theoretical analysis of the Transformer's ability to represent trees

論文の概要: Trees in transformers: a theoretical analysis of the Transformer's ability to represent trees

arxiv url: http://arxiv.org/abs/2112.11913v1
Date: Thu, 16 Dec 2021 00:02:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-26 13:35:41.201486
Title: Trees in transformers: a theoretical analysis of the Transformer's ability to represent trees
Title（参考訳）: 変圧器の木--木を表す変圧器の能力に関する理論的解析
Authors: Qi He, Jo\~ao Sedoc, Jordan Rodu
Abstract要約: まず、木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力について分析する。これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味している。合成データを用いて実験を行い,木の位置情報を明示的に符号化した変換器と比較して,標準変換器の精度が同等であることが確認された。
参考スコア（独自算出の注目度）: 6.576972696596151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer networks are the de facto standard architecture in natural language processing. To date, there are no theoretical analyses of the Transformer's ability to capture tree structures. We focus on the ability of Transformer networks to learn tree structures that are important for tree transduction problems. We first analyze the theoretical capability of the standard Transformer architecture to learn tree structures given enumeration of all possible tree backbones, which we define as trees without labels. We then prove that two linear layers with ReLU activation function can recover any tree backbone from any two nonzero, linearly independent starting backbones. This implies that a Transformer can learn tree structures well in theory. We conduct experiments with synthetic data and find that the standard Transformer achieves similar accuracy compared to a Transformer where tree position information is explicitly encoded, albeit with slower convergence. This confirms empirically that Transformers can learn tree structures.
Abstract（参考訳）: トランスフォーマーネットワークは自然言語処理におけるデファクトスタンダードアーキテクチャである。現在、トランスフォーマーのツリー構造を捉える能力に関する理論的分析は行われていない。我々はトランスフォーマーネットワークがツリーのトランスダクション問題に重要な木構造を学習する能力に焦点をあてる。まず,可能なすべての木を列挙した木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力を解析し,ラベルのない木と定義する。次に、ReLUアクティベーション関数を持つ2つの線形層が、2つの非ゼロ独立スタートバックボーンから任意の木のバックボーンを復元できることを証明する。これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味する。合成データを用いて実験を行い,木の位置情報が明示的にエンコードされる変圧器と比較して,標準変圧器の精度が同等であることを確認した。これは、Transformerがツリー構造を学習できることを実証的に確認する。

関連論文リスト

Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文参考訳（メタデータ） (2024-11-25T23:53:46Z)
TreeCoders: Trees of Transformers [0.0]
トランスフォーマーツリーの新しいファミリーであるTreeCodersを紹介します。トランスフォーマーはノードとして機能し、ジェネリック分類器は最高の子を選択することを学ぶ。 TreeCodersは当然、分散実装に役立ちます。
論文参考訳（メタデータ） (2024-11-11T18:40:04Z)
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。 DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文参考訳（メタデータ） (2023-06-01T14:46:34Z)
Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文参考訳（メタデータ） (2023-05-30T04:34:13Z)
An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文参考訳（メタデータ） (2023-04-20T14:54:19Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文参考訳（メタデータ） (2022-08-11T22:42:24Z)
Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。可視化により,変換因子によって得られた階層的意味構造を実演する。この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文参考訳（メタデータ） (2021-03-29T20:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。