論文の概要: How transformers learn structured data: insights from hierarchical filtering
- arxiv url: http://arxiv.org/abs/2408.15138v1
- Date: Tue, 27 Aug 2024 15:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:13:36.214172
- Title: How transformers learn structured data: insights from hierarchical filtering
- Title(参考訳): トランスフォーマーが構造化データをどのように学習するか--階層的フィルタリングからの洞察
- Authors: Jerome Garnier-Brun, Marc Mézard, Emanuele Moscato, Luca Saglietti,
- Abstract要約: 本稿では,木上の配列の生成モデルに対する階層的フィルタリング手法を提案する。
我々は,バニラエンコーダのみのトランスフォーマーアーキテクチャが最適なBelief伝搬アルゴリズムを実装できることを示す。
フィルタの度合いの異なるモデルのアテンションマップに注目することで,トランスフォーマー層がどのように成功するかを分析する。
- 参考スコア(独自算出の注目度): 2.7784685368355744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a hierarchical filtering procedure for generative models of sequences on trees, enabling control over the range of positional correlations in the data. Leveraging this controlled setting, we provide evidence that vanilla encoder-only transformer architectures can implement the optimal Belief Propagation algorithm on both root classification and masked language modeling tasks. Correlations at larger distances corresponding to increasing layers of the hierarchy are sequentially included as the network is trained. We analyze how the transformer layers succeed by focusing on attention maps from models trained with varying degrees of filtering. These attention maps show clear evidence for iterative hierarchical reconstruction of correlations, and we can relate these observations to a plausible implementation of the exact inference algorithm for the network sizes considered.
- Abstract(参考訳): 本研究では,木上の配列の生成モデルに対する階層的フィルタリング手法を導入し,データ中の位置相関範囲の制御を可能にする。
この制御された設定を活用することで、バニラエンコーダのみのトランスフォーマーアーキテクチャが、ルート分類とマスキング言語モデリングの両方に最適なBelief Propagationアルゴリズムを実装できることを示す。
ネットワークをトレーニングする際、階層層の増大に対応するより大きな距離での相関が順次含まれる。
フィルタの度合いの異なるモデルのアテンションマップに注目することで,トランスフォーマー層がどのように成功するかを分析する。
これらのアテンションマップは相関関係の反復的階層的再構成の明確な証拠を示し、これらの観測結果をネットワークサイズを考慮した正確な推論アルゴリズムの実装に関連付けることができる。
関連論文リスト
- How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文 参考訳(メタデータ) (2021-08-24T08:14:35Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。