論文の概要: How transformers learn structured data: insights from hierarchical filtering
- arxiv url: http://arxiv.org/abs/2408.15138v2
- Date: Mon, 09 Dec 2024 16:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:20.227407
- Title: How transformers learn structured data: insights from hierarchical filtering
- Title(参考訳): トランスフォーマーが構造化データをどのように学習するか--階層的フィルタリングからの洞察
- Authors: Jerome Garnier-Brun, Marc Mézard, Emanuele Moscato, Luca Saglietti,
- Abstract要約: 本稿では,木上の配列の生成モデルに対する階層的フィルタリング手法を提案する。
バニラエンコーダのみの変換器は、根の分類に基づいて訓練された場合の正確な推論アルゴリズムを近似できることを示す。
階層の様々なレベルに対応する連続した長さスケールにおける相関関係の再構築の明確な証拠を見いだす。
- 参考スコア(独自算出の注目度): 2.7784685368355744
- License:
- Abstract: Understanding the learning process and the embedded computation in transformers is becoming a central goal for the development of interpretable AI. In the present study, we introduce a hierarchical filtering procedure for generative models of sequences on trees, allowing us to hand-tune the range of positional correlations in the data. Leveraging this controlled setting, we provide evidence that vanilla encoder-only transformers can approximate the exact inference algorithm when trained on root classification and masked language modeling tasks, and study how this computation is discovered and implemented. We find that correlations at larger distances, corresponding to increasing layers of the hierarchy, are sequentially included by the network during training. Moreover, by comparing attention maps from models trained with varying degrees of filtering and by probing the different encoder levels, we find clear evidence of a reconstruction of correlations on successive length scales corresponding to the various levels of the hierarchy, which we relate to a plausible implementation of the exact inference algorithm within the same architecture.
- Abstract(参考訳): 変換器における学習プロセスと組込み計算を理解することは、解釈可能なAIの開発における中心的な目標となっている。
本研究では,木上の配列の生成モデルに対する階層的フィルタリング手法を導入し,データ中の位置相関の範囲を手作業で調整する。
この制御された設定を活用することで、ルート分類やマスキング言語モデリングタスクで訓練された場合、バニラエンコーダのみの変換器が正確な推論アルゴリズムを近似できることを示すとともに、この計算の発見と実装方法について検討する。
その結果,階層層の増加に対応する距離の大きい相関関係が,トレーニング中にネットワークに順次含まれていることが判明した。
さらに, フィルタの度合いの異なるモデルと, エンコーダレベルの異なるモデルとのアテンションマップを比較して, 階層の様々なレベルに対応する連続する長さスケールの相関関係の再構築の明確な証拠を見出した。
関連論文リスト
- Encoding Agent Trajectories as Representations with Sequence Transformers [0.4999814847776097]
本稿では,ニューラルネットワークアーキテクチャを用いた高次元トラジェクトリを表現するモデルを提案する。
言語モデルと同様に、我々のTransformer Sequence for Agent temporal Representation (STARE)モデルは、軌跡データにおける表現と構造を学習することができる。
合成および実軌道データを用いた実験結果から,提案モデルが有意なエンコーディングを学習できることが示唆された。
論文 参考訳(メタデータ) (2024-10-11T19:18:47Z) - Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。