論文の概要: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
- arxiv url: http://arxiv.org/abs/2206.03529v1
- Date: Tue, 7 Jun 2022 18:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 06:39:05.942372
- Title: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
- Title(参考訳): Muppetの発見方法:トランスフォーマーの埋め込み空間の構造
- Authors: Timothee Mickus, Denis Paperno, Mathieu Constant
- Abstract要約: 事前学習した埋め込みをベクトル要素の和として再構成し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。
マルチヘッド・アテンションとフィードフォワードは、下流のすべてのアプリケーションで等しく有用ではないことを示すとともに、ファインタニングが全体の埋め込み空間に与える影響を定量的に概説する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained embeddings based on the Transformer architecture have taken the
NLP community by storm. We show that they can mathematically be reframed as a
sum of vector factors and showcase how to use this reframing to study the
impact of each component. We provide evidence that multi-head attentions and
feed-forwards are not equally useful in all downstream applications, as well as
a quantitative overview of the effects of finetuning on the overall embedding
space. This approach allows us to draw connections to a wide range of previous
studies, from vector space anisotropy to attention weights.
- Abstract(参考訳): Transformerアーキテクチャに基づく事前の組み込みは、NLPコミュニティを嵐に巻き込んだ。
ベクトル要素の和として数学的に再構成できることを示し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。
我々は,マルチヘッド・アテンションやフィードフォワードが下流のすべてのアプリケーションにおいて等しく有用ではないことを示すとともに,埋め込み空間全体に微調整が与える影響の定量的な概要を示す。
このアプローチにより、ベクトル空間の異方性から注意力の重み付けまで、幅広い過去の研究と接続することができる。
関連論文リスト
- Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Engineering the Neural Collapse Geometry of Supervised-Contrastive Loss [28.529476019629097]
Supervised-Contrastive Los (SCL) は、分類タスクのためのクロスエントロピー(CE)の代替品である。
コントラスト損失を補正することにより,学習した特徴埋め込みの幾何学を設計する手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T04:23:17Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Unsupervised Disentanglement with Tensor Product Representations on the
Torus [78.6315881294899]
オートエンコーダで表現を学習する現在の方法では、ほとんどベクターを潜在表現として用いている。
本研究では,この目的のためにテンソル積構造を用いることを提案する。
通常分布する特徴を対象とする従来の変分法とは対照的に,表現の潜在空間は単位円の集合上に均一に分布する。
論文 参考訳(メタデータ) (2022-02-13T04:23:12Z) - TransPose: Towards Explainable Human Pose Estimation by Transformer [17.39838556906491]
我々はTransformerアーキテクチャと低レベルの畳み込みブロックに基づくTransPoseというモデルを構築した。
画像が与えられると、transformerに組み込まれた注意層はキーポイント間の長距離空間関係を捉えることができる。
実験によると、TransPoseはキーポイントの位置を正確に予測できる。
論文 参考訳(メタデータ) (2020-12-28T12:33:52Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。