論文の概要: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
- arxiv url: http://arxiv.org/abs/2206.03529v1
- Date: Tue, 7 Jun 2022 18:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 06:39:05.942372
- Title: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
- Title(参考訳): Muppetの発見方法:トランスフォーマーの埋め込み空間の構造
- Authors: Timothee Mickus, Denis Paperno, Mathieu Constant
- Abstract要約: 事前学習した埋め込みをベクトル要素の和として再構成し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。
マルチヘッド・アテンションとフィードフォワードは、下流のすべてのアプリケーションで等しく有用ではないことを示すとともに、ファインタニングが全体の埋め込み空間に与える影響を定量的に概説する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained embeddings based on the Transformer architecture have taken the
NLP community by storm. We show that they can mathematically be reframed as a
sum of vector factors and showcase how to use this reframing to study the
impact of each component. We provide evidence that multi-head attentions and
feed-forwards are not equally useful in all downstream applications, as well as
a quantitative overview of the effects of finetuning on the overall embedding
space. This approach allows us to draw connections to a wide range of previous
studies, from vector space anisotropy to attention weights.
- Abstract(参考訳): Transformerアーキテクチャに基づく事前の組み込みは、NLPコミュニティを嵐に巻き込んだ。
ベクトル要素の和として数学的に再構成できることを示し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。
我々は,マルチヘッド・アテンションやフィードフォワードが下流のすべてのアプリケーションにおいて等しく有用ではないことを示すとともに,埋め込み空間全体に微調整が与える影響の定量的な概要を示す。
このアプローチにより、ベクトル空間の異方性から注意力の重み付けまで、幅広い過去の研究と接続することができる。
関連論文リスト
- A Hierarchical Spatial Transformer for Massive Point Samples in
Continuous Space [11.074768589778934]
既存のトランスは、主にシーケンス(テキストや時系列)、画像やビデオ、グラフのために設計されている。
本稿では,連続空間における大規模(最大100万点)点サンプルに対する新しい変圧器モデルを提案する。
論文 参考訳(メタデータ) (2023-11-08T02:54:19Z) - NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。
我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Engineering the Neural Collapse Geometry of Supervised-Contrastive Loss [28.529476019629097]
Supervised-Contrastive Los (SCL) は、分類タスクのためのクロスエントロピー(CE)の代替品である。
コントラスト損失を補正することにより,学習した特徴埋め込みの幾何学を設計する手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T04:23:17Z) - ExpPoint-MAE: Better interpretability and performance for
self-supervised point cloud transformers [9.881466104115352]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Unsupervised Disentanglement with Tensor Product Representations on the
Torus [78.6315881294899]
オートエンコーダで表現を学習する現在の方法では、ほとんどベクターを潜在表現として用いている。
本研究では,この目的のためにテンソル積構造を用いることを提案する。
通常分布する特徴を対象とする従来の変分法とは対照的に,表現の潜在空間は単位円の集合上に均一に分布する。
論文 参考訳(メタデータ) (2022-02-13T04:23:12Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - TransPose: Towards Explainable Human Pose Estimation by Transformer [17.39838556906491]
我々はTransformerアーキテクチャと低レベルの畳み込みブロックに基づくTransPoseというモデルを構築した。
画像が与えられると、transformerに組み込まれた注意層はキーポイント間の長距離空間関係を捉えることができる。
実験によると、TransPoseはキーポイントの位置を正確に予測できる。
論文 参考訳(メタデータ) (2020-12-28T12:33:52Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。