論文の概要: Characterizing Intrinsic Compositionality In Transformers With Tree
Projections
- arxiv url: http://arxiv.org/abs/2211.01288v1
- Date: Wed, 2 Nov 2022 17:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:20:53.859229
- Title: Characterizing Intrinsic Compositionality In Transformers With Tree
Projections
- Title(参考訳): 木突起を有する変圧器の固有の構成性
- Authors: Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning
- Abstract要約: トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
- 参考スコア(独自算出の注目度): 72.45375959893218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When trained on language data, do transformers learn some arbitrary
computation that utilizes the full capacity of the architecture or do they
learn a simpler, tree-like computation, hypothesized to underlie compositional
meaning systems like human languages? There is an apparent tension between
compositional accounts of human language understanding, which are based on a
restricted bottom-up computational process, and the enormous success of neural
models like transformers, which can route information arbitrarily between
different parts of their input. One possibility is that these models, while
extremely flexible in principle, in practice learn to interpret language
hierarchically, ultimately building sentence representations close to those
predictable by a bottom-up, tree-structured model. To evaluate this
possibility, we describe an unsupervised and parameter-free method to
\emph{functionally project} the behavior of any transformer into the space of
tree-structured networks. Given an input sentence, we produce a binary tree
that approximates the transformer's representation-building process and a score
that captures how "tree-like" the transformer's behavior is on the input. While
calculation of this score does not require training any additional models, it
provably upper-bounds the fit between a transformer and any tree-structured
approximation. Using this method, we show that transformers for three different
tasks become more tree-like over the course of training, in some cases
unsupervisedly recovering the same trees as supervised parsers. These trees, in
turn, are predictive of model behavior, with more tree-like models generalizing
better on tests of compositional generalization.
- Abstract(参考訳): 言語データに基づいてトレーニングされた場合、トランスフォーマーはアーキテクチャの完全な能力を利用する任意の計算を学習するか、あるいは、人間の言語のような構成的意味システムに根ざした単純な木のような計算を学習するのか?
制限されたボトムアップ計算プロセスに基づく人間の言語理解の構成的説明と、入力の異なる部分間で情報を任意にルーティングできるトランスフォーマーのようなニューラルモデルの巨大な成功との間には、明らかな緊張関係がある。
一つの可能性は、これらのモデルは原則としては極めて柔軟であるが、実際には言語を階層的に解釈することを学び、最終的にボトムアップのツリー構造モデルによって予測可能なものに近い文表現を構築する。
この可能性を評価するために,木構造ネットワークの空間に任意のトランスフォーマーの振る舞いを投影する,教師なしかつパラメータフリーな手法について述べる。
入力文が与えられた場合、変換器の表現構築過程を近似する二分木と、変換器の動作が入力上で「ツリー様」であることを示すスコアを生成する。
このスコアの計算には追加のモデルのトレーニングは必要ないが、変圧器と木構造近似の間の適合性は確実に上界である。
この方法を用いて,3つの異なるタスクに対するトランスフォーマーが,教師なしのパーサーと同じ木を無監督で復元するなど,学習の過程でツリーライクになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルが合成一般化のテストでより良く一般化される。
関連論文リスト
- Tree Transformers are an Ineffective Model of Syntactic Constituency [0.0]
言語学者は、自然言語構文の重要な側面は、言語単位を構成構造にまとめることである、と長い間考えてきた。
ツリー変換器など、選挙区に対する帰納バイアスを提供するために、いくつかの代替モデルが提案されている。
木形質変換器を用いて意味的・有用な構成構造を利用するかどうかを検討する。
論文 参考訳(メタデータ) (2024-11-25T23:53:46Z) - TreeCoders: Trees of Transformers [0.0]
トランスフォーマーツリーの新しいファミリーであるTreeCodersを紹介します。
トランスフォーマーはノードとして機能し、ジェネリック分類器は最高の子を選択することを学ぶ。
TreeCodersは当然、分散実装に役立ちます。
論文 参考訳(メタデータ) (2024-11-11T18:40:04Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Trees in transformers: a theoretical analysis of the Transformer's
ability to represent trees [6.576972696596151]
まず、木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力について分析する。
これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味している。
合成データを用いて実験を行い,木の位置情報を明示的に符号化した変換器と比較して,標準変換器の精度が同等であることが確認された。
論文 参考訳(メタデータ) (2021-12-16T00:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。