論文の概要: Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2402.00522v5
- Date: Wed, 3 Jul 2024 03:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:04:00.541302
- Title: Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling
- Title(参考訳): シーケンスモデリングのための変圧器の表現力と機構の理解
- Authors: Mingze Wang, Weinan E,
- Abstract要約: ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
- 参考スコア(独自算出の注目度): 10.246977481606427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct a systematic study of the approximation properties of Transformer for sequence modeling with long, sparse and complicated memory. We investigate the mechanisms through which different components of Transformer, such as the dot-product self-attention, positional encoding and feed-forward layer, affect its expressive power, and we study their combined effects through establishing explicit approximation rates. Our study reveals the roles of critical parameters in the Transformer, such as the number of layers and the number of attention heads. These theoretical insights are validated experimentally and offer natural suggestions for alternative architectures.
- Abstract(参考訳): 本研究では,長い,スパースな,複雑なメモリを持つシーケンスモデリングのためのTransformerの近似特性を体系的に研究する。
本研究では, ドット積自己注意, 位置符号化, フィードフォワード層などのトランスフォーマーの異なる成分が, その表現力に影響を及ぼすメカニズムについて検討し, 明示的な近似速度を確立することによってそれらの組み合わせの効果について検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
これらの理論的洞察は実験的に検証され、代替アーキテクチャに対する自然な提案を提供する。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
本稿では,これらの手法を拡張し,組み合わせるための新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers are Universal Predictors [21.92580010179886]
言語モデリングにおけるTransformerアーキテクチャの限界を見つけ,情報理論的な意味での普遍的な予測特性を示す。
我々は,トランスフォーマーアーキテクチャの様々なコンポーネントの役割を,特にデータ効率のトレーニングの文脈で理解するために,非漸近データシステムの性能を分析した。
論文 参考訳(メタデータ) (2023-07-15T16:19:37Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Approximation Rate of the Transformer Architecture for Sequence Modeling [21.461856598336464]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文 参考訳(メタデータ) (2023-05-29T10:56:36Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。