論文の概要: How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding
- arxiv url: http://arxiv.org/abs/2303.04245v2
- Date: Mon, 24 Jul 2023 17:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:53:23.886543
- Title: How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding
- Title(参考訳): トランスフォーマーはいかにしてトピック構造を学ぶか:機械的理解に向けて
- Authors: Yuchen Li, Yuanzhi Li, Andrej Risteski
- Abstract要約: 我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
- 参考スコア(独自算出の注目度): 56.222097640468306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the successes of transformers across many domains are indisputable,
accurate understanding of the learning mechanics is still largely lacking.
Their capabilities have been probed on benchmarks which include a variety of
structured and reasoning tasks -- but mathematical understanding is lagging
substantially behind. Recent lines of work have begun studying representational
aspects of this question: that is, the size/depth/complexity of attention-based
networks to perform certain tasks. However, there is no guarantee the learning
dynamics will converge to the constructions proposed. In our paper, we provide
fine-grained mechanistic understanding of how transformers learn "semantic
structure", understood as capturing co-occurrence structure of words.
Precisely, we show, through a combination of mathematical analysis and
experiments on Wikipedia data and synthetic data modeled by Latent Dirichlet
Allocation (LDA), that the embedding layer and the self-attention layer encode
the topical structure. In the former case, this manifests as higher average
inner product of embeddings between same-topic words. In the latter, it
manifests as higher average pairwise attention between same-topic words. The
mathematical results involve several assumptions to make the analysis
tractable, which we verify on data, and might be of independent interest as
well.
- Abstract(参考訳): 多くの領域にわたる変圧器の成功は疑わしいが、学習力学の正確な理解はいまだにほとんど欠けている。
それらの能力は、様々な構造化および推論タスクを含むベンチマークで調査されてきたが、数学的理解は大幅に遅れている。
最近の研究は、あるタスクを実行するための注意に基づくネットワークのサイズ/深さ/複雑さという、この問題の表現的側面の研究を始めている。
しかし、学習ダイナミクスが提案された構成に収束する保証はない。
本稿では, トランスフォーマーが単語の共起構造を捉えた「意味構造」をどのように学習するかを, きめ細かい機械論的に理解する。
正確には,wikipediaデータに対する数学的解析と実験と,潜在ディリクレ割当(lda)によってモデル化された合成データの組み合わせにより,埋め込み層と自己着脱層が局所構造を符号化することを示す。
前者の場合、これは同じ話題語間の埋め込みの平均的な内積として表される。
後者では、同トピックの単語間で平均的なペアワイズ注意が高まる。
数学的結果は、データに基づいて検証し、また独立した関心を持つような分析を可能にするためのいくつかの仮定を含む。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Discrete Latent Structure in Neural Networks [32.41642110537956]
このテキストは、離散的な潜在構造を持つ学習のための3つの広義の戦略を探求する。
たいていは、同じ基本ブロックの小さなセットで構成されているが、それらが異なる使い方をしており、適用性や特性が著しく異なることを示している。
論文 参考訳(メタデータ) (2023-01-18T12:30:44Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。