Fugu-MT 論文翻訳(概要): How to Dissect a Muppet: The Structure of Transformer Embedding Spaces

論文の概要: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces

arxiv url: http://arxiv.org/abs/2206.03529v1
Date: Tue, 7 Jun 2022 18:24:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 06:39:05.942372
Title: How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
Title（参考訳）: Muppetの発見方法:トランスフォーマーの埋め込み空間の構造
Authors: Timothee Mickus, Denis Paperno, Mathieu Constant
Abstract要約: 事前学習した埋め込みをベクトル要素の和として再構成し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。マルチヘッド・アテンションとフィードフォワードは、下流のすべてのアプリケーションで等しく有用ではないことを示すとともに、ファインタニングが全体の埋め込み空間に与える影響を定量的に概説する。
参考スコア（独自算出の注目度）: 1.2031796234206138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretrained embeddings based on the Transformer architecture have taken the NLP community by storm. We show that they can mathematically be reframed as a sum of vector factors and showcase how to use this reframing to study the impact of each component. We provide evidence that multi-head attentions and feed-forwards are not equally useful in all downstream applications, as well as a quantitative overview of the effects of finetuning on the overall embedding space. This approach allows us to draw connections to a wide range of previous studies, from vector space anisotropy to attention weights.
Abstract（参考訳）: Transformerアーキテクチャに基づく事前の組み込みは、NLPコミュニティを嵐に巻き込んだ。ベクトル要素の和として数学的に再構成できることを示し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。我々は,マルチヘッド・アテンションやフィードフォワードが下流のすべてのアプリケーションにおいて等しく有用ではないことを示すとともに,埋め込み空間全体に微調整が与える影響の定量的な概要を示す。このアプローチにより、ベクトル空間の異方性から注意力の重み付けまで、幅広い過去の研究と接続することができる。

関連論文リスト

Image-Based Multi-Survey Classification of Light Curves with a Pre-Trained Vision Transformer [31.76431580841178]
我々は、マルチサーベイ環境での光度分類に、事前訓練された視覚変換器であるSwin Transformer V2の使用について検討する。 Zwicky Transient Facility (ZTF) とAsteroid Terrestrial-impact Last Alert System (ATLAS) のデータを統合するためのさまざまな戦略の評価を行った。
論文参考訳（メタデータ） (2025-07-15T20:30:21Z)
RiemannFormer: A Framework for Attention in Curved Spaces [0.43512163406552]
この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
論文参考訳（メタデータ） (2025-06-09T03:56:18Z)
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文参考訳（メタデータ） (2024-07-03T07:54:08Z)
SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文参考訳（メタデータ） (2024-04-19T04:51:18Z)
Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。我々は「確率共鳴」にインスパイアされた無訓練法を提案する。結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文参考訳（メタデータ） (2023-10-06T01:53:27Z)
Engineering the Neural Collapse Geometry of Supervised-Contrastive Loss [28.529476019629097]
Supervised-Contrastive Los (SCL) は、分類タスクのためのクロスエントロピー(CE)の代替品である。コントラスト損失を補正することにより,学習した特徴埋め込みの幾何学を設計する手法を提案する。
論文参考訳（メタデータ） (2023-10-02T04:23:17Z)
ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文参考訳（メタデータ） (2023-06-19T09:38:21Z)
Signal Propagation in Transformers: Theoretical Perspectives and the Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文参考訳（メタデータ） (2022-06-07T09:07:24Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Unsupervised Disentanglement with Tensor Product Representations on the Torus [78.6315881294899]
オートエンコーダで表現を学習する現在の方法では、ほとんどベクターを潜在表現として用いている。本研究では,この目的のためにテンソル積構造を用いることを提案する。通常分布する特徴を対象とする従来の変分法とは対照的に,表現の潜在空間は単位円の集合上に均一に分布する。
論文参考訳（メタデータ） (2022-02-13T04:23:12Z)
TransPose: Towards Explainable Human Pose Estimation by Transformer [17.39838556906491]
我々はTransformerアーキテクチャと低レベルの畳み込みブロックに基づくTransPoseというモデルを構築した。画像が与えられると、transformerに組み込まれた注意層はキーポイント間の長距離空間関係を捉えることができる。実験によると、TransPoseはキーポイントの位置を正確に予測できる。
論文参考訳（メタデータ） (2020-12-28T12:33:52Z)
Understanding Adversarial Examples from the Mutual Influence of Images and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文参考訳（メタデータ） (2020-07-13T05:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。