論文の概要: Traveling Words: A Geometric Interpretation of Transformers
- arxiv url: http://arxiv.org/abs/2309.07315v2
- Date: Tue, 19 Sep 2023 00:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:37:56.719144
- Title: Traveling Words: A Geometric Interpretation of Transformers
- Title(参考訳): 移動語:トランスフォーマーの幾何学的解釈
- Authors: Raul Molina
- Abstract要約: トランス操作の内部メカニズムを解明する新しい幾何学的視点を導入する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現を形作ることを可能にすることである。
本稿では,超球面に沿った単語粒子の軌跡をモデル化するプロセスとして,トランスフォーマーの直感的な理解を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have significantly advanced the field of natural language
processing, but comprehending their internal mechanisms remains a challenge. In
this paper, we introduce a novel geometric perspective that elucidates the
inner mechanisms of transformer operations. Our primary contribution is
illustrating how layer normalization confines the latent features to a
hyper-sphere, subsequently enabling attention to mold the semantic
representation of words on this surface. This geometric viewpoint seamlessly
connects established properties such as iterative refinement and contextual
embeddings. We validate our insights by probing a pre-trained 124M parameter
GPT-2 model. Our findings reveal clear query-key attention patterns in early
layers and build upon prior observations regarding the subject-specific nature
of attention heads at deeper layers. Harnessing these geometric insights, we
present an intuitive understanding of transformers, depicting them as processes
that model the trajectory of word particles along the hyper-sphere.
- Abstract(参考訳): トランスフォーマーは自然言語処理の分野を著しく進歩させたが、内部機構の解明は依然として課題である。
本稿では,変圧器操作の内部機構を解明する新しい幾何学的視点を提案する。
我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現に注意を向けることである。
この幾何学的視点は、反復的洗練や文脈埋め込みのような確立された性質をシームレスに結合する。
我々は,事前学習した114mパラメータgpt-2モデルを用いて知見を検証する。
本研究は,初期層における問合せキーの注意パターンを明らかにし,より深い層における注目の主観的特徴に関する先行観測に基づいて構築した。
これらの幾何学的洞察を生かし、超球面に沿った単語粒子の軌跡をモデル化する過程として、トランスフォーマーの直感的な理解を示す。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Analyzing Deep Transformer Models for Time Series Forecasting via Manifold Learning [4.910937238451485]
トランスフォーマーモデルは、自然言語処理やコンピュータビジョンといった様々な領域において、一貫して顕著な成果を上げてきた。
これらのモデルをよりよく理解するための継続的な研究努力にもかかわらず、この分野はいまだに包括的な理解を欠いている。
画像やテキスト情報とは異なり、時系列データは解釈し分析することがより困難である。
論文 参考訳(メタデータ) (2024-10-17T17:32:35Z) - Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape [40.78854925996]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文 参考訳(メタデータ) (2024-02-02T09:29:40Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。