論文の概要: Traveling Words: A Geometric Interpretation of Transformers
- arxiv url: http://arxiv.org/abs/2309.07315v2
- Date: Tue, 19 Sep 2023 00:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:37:56.719144
- Title: Traveling Words: A Geometric Interpretation of Transformers
- Title(参考訳): 移動語:トランスフォーマーの幾何学的解釈
- Authors: Raul Molina
- Abstract要約: トランス操作の内部メカニズムを解明する新しい幾何学的視点を導入する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現を形作ることを可能にすることである。
本稿では,超球面に沿った単語粒子の軌跡をモデル化するプロセスとして,トランスフォーマーの直感的な理解を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have significantly advanced the field of natural language
processing, but comprehending their internal mechanisms remains a challenge. In
this paper, we introduce a novel geometric perspective that elucidates the
inner mechanisms of transformer operations. Our primary contribution is
illustrating how layer normalization confines the latent features to a
hyper-sphere, subsequently enabling attention to mold the semantic
representation of words on this surface. This geometric viewpoint seamlessly
connects established properties such as iterative refinement and contextual
embeddings. We validate our insights by probing a pre-trained 124M parameter
GPT-2 model. Our findings reveal clear query-key attention patterns in early
layers and build upon prior observations regarding the subject-specific nature
of attention heads at deeper layers. Harnessing these geometric insights, we
present an intuitive understanding of transformers, depicting them as processes
that model the trajectory of word particles along the hyper-sphere.
- Abstract(参考訳): トランスフォーマーは自然言語処理の分野を著しく進歩させたが、内部機構の解明は依然として課題である。
本稿では,変圧器操作の内部機構を解明する新しい幾何学的視点を提案する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現に注意を向けることである。
この幾何学的視点は、反復的洗練や文脈埋め込みのような確立された性質をシームレスに結合する。
我々は,事前学習した114mパラメータgpt-2モデルを用いて知見を検証する。
本研究は,初期層における問合せキーの注意パターンを明らかにし,より深い層における注目の主観的特徴に関する先行観測に基づいて構築した。
これらの幾何学的洞察を生かし、超球面に沿った単語粒子の軌跡をモデル化する過程として、トランスフォーマーの直感的な理解を示す。
関連論文リスト
- Transformers Provably Learn Feature-Position Correlations in Masked
Image Modeling [72.19427527234095]
マスク付き画像モデリング(MIM)は、マスクなしのパッチからランダムにマスクされたパッチを予測する。
我々はMIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論を提案する。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field
Dynamics on the Attention Landscape [48.18626762645424]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文 参考訳(メタデータ) (2024-02-02T09:29:40Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。