論文の概要: Characterizing Intrinsic Compositionality In Transformers With Tree
Projections
- arxiv url: http://arxiv.org/abs/2211.01288v1
- Date: Wed, 2 Nov 2022 17:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:20:53.859229
- Title: Characterizing Intrinsic Compositionality In Transformers With Tree
Projections
- Title(参考訳): 木突起を有する変圧器の固有の構成性
- Authors: Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning
- Abstract要約: トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
- 参考スコア(独自算出の注目度): 72.45375959893218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When trained on language data, do transformers learn some arbitrary
computation that utilizes the full capacity of the architecture or do they
learn a simpler, tree-like computation, hypothesized to underlie compositional
meaning systems like human languages? There is an apparent tension between
compositional accounts of human language understanding, which are based on a
restricted bottom-up computational process, and the enormous success of neural
models like transformers, which can route information arbitrarily between
different parts of their input. One possibility is that these models, while
extremely flexible in principle, in practice learn to interpret language
hierarchically, ultimately building sentence representations close to those
predictable by a bottom-up, tree-structured model. To evaluate this
possibility, we describe an unsupervised and parameter-free method to
\emph{functionally project} the behavior of any transformer into the space of
tree-structured networks. Given an input sentence, we produce a binary tree
that approximates the transformer's representation-building process and a score
that captures how "tree-like" the transformer's behavior is on the input. While
calculation of this score does not require training any additional models, it
provably upper-bounds the fit between a transformer and any tree-structured
approximation. Using this method, we show that transformers for three different
tasks become more tree-like over the course of training, in some cases
unsupervisedly recovering the same trees as supervised parsers. These trees, in
turn, are predictive of model behavior, with more tree-like models generalizing
better on tests of compositional generalization.
- Abstract(参考訳): 言語データに基づいてトレーニングされた場合、トランスフォーマーはアーキテクチャの完全な能力を利用する任意の計算を学習するか、あるいは、人間の言語のような構成的意味システムに根ざした単純な木のような計算を学習するのか?
制限されたボトムアップ計算プロセスに基づく人間の言語理解の構成的説明と、入力の異なる部分間で情報を任意にルーティングできるトランスフォーマーのようなニューラルモデルの巨大な成功との間には、明らかな緊張関係がある。
一つの可能性は、これらのモデルは原則としては極めて柔軟であるが、実際には言語を階層的に解釈することを学び、最終的にボトムアップのツリー構造モデルによって予測可能なものに近い文表現を構築する。
この可能性を評価するために,木構造ネットワークの空間に任意のトランスフォーマーの振る舞いを投影する,教師なしかつパラメータフリーな手法について述べる。
入力文が与えられた場合、変換器の表現構築過程を近似する二分木と、変換器の動作が入力上で「ツリー様」であることを示すスコアを生成する。
このスコアの計算には追加のモデルのトレーニングは必要ないが、変圧器と木構造近似の間の適合性は確実に上界である。
この方法を用いて,3つの異なるタスクに対するトランスフォーマーが,教師なしのパーサーと同じ木を無監督で復元するなど,学習の過程でツリーライクになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルが合成一般化のテストでより良く一般化される。
関連論文リスト
- Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Forming Trees with Treeformers [3.8073142980733]
トランスフォーマーのような最先端のニューラルネットワークモデルの多くは、そのアーキテクチャに明確な階層構造を持たない。
CKYアルゴリズムにインスパイアされた汎用エンコーダモジュールであるTreeformerを紹介する。
実験では, 階層構造をトランスフォーマーに組み込むことの利点を実証した。
論文 参考訳(メタデータ) (2022-07-14T14:39:30Z) - Trees in transformers: a theoretical analysis of the Transformer's
ability to represent trees [6.576972696596151]
まず、木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力について分析する。
これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味している。
合成データを用いて実験を行い,木の位置情報を明示的に符号化した変換器と比較して,標準変換器の精度が同等であることが確認された。
論文 参考訳(メタデータ) (2021-12-16T00:02:02Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - R2D2: Recursive Transformer based on Differentiable Tree for
Interpretable Hierarchical Language Modeling [36.61173494449218]
本稿では, 構成過程をエミュレートするために, 微分可能なCKYスタイルのバイナリツリーに基づくモデルを提案する。
我々は、このアーキテクチャに対して双方向言語モデル事前学習の目的を拡張し、左右の抽象ノードを与えられた各単語を予測しようと試みる。
また,本手法を大規模化するために,合成ステップの線形数だけを符号化する効率的な伐採木誘導アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-07-02T11:00:46Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。