論文の概要: Fine-Tuned Transformers Show Clusters of Similar Representations Across
Layers
- arxiv url: http://arxiv.org/abs/2109.08406v2
- Date: Mon, 20 Sep 2021 17:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 11:18:34.128659
- Title: Fine-Tuned Transformers Show Clusters of Similar Representations Across
Layers
- Title(参考訳): 層にまたがる類似表現のクラスターを示す微調整トランスフォーマー
- Authors: Jason Phang, Haokun Liu, Samuel R. Bowman
- Abstract要約: カーネルアライメント(CKA)を用いて、レイヤ間のタスクチューニングモデルにおける表現の類似性を計測する。
12のNLUタスクを対象とした実験では、細調整されたRoBERTaおよびALBERTモデル内の表現の類似性において、一貫したブロック対角構造が発見された。
実験では、微調整トランスフォーマーの上位数層は、それ以上のチューニングを行わなくても、パフォーマンスを損なうことなく破棄できることを確認した。
- 参考スコア(独自算出の注目度): 27.68150225442148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of fine-tuning pretrained language encoders like BERT for
downstream natural language understanding (NLU) tasks, it is still poorly
understood how neural networks change after fine-tuning. In this work, we use
centered kernel alignment (CKA), a method for comparing learned
representations, to measure the similarity of representations in task-tuned
models across layers. In experiments across twelve NLU tasks, we discover a
consistent block diagonal structure in the similarity of representations within
fine-tuned RoBERTa and ALBERT models, with strong similarity within clusters of
earlier and later layers, but not between them. The similarity of later layer
representations implies that later layers only marginally contribute to task
performance, and we verify in experiments that the top few layers of fine-tuned
Transformers can be discarded without hurting performance, even with no further
tuning.
- Abstract(参考訳): 下流自然言語理解(NLU)タスクのためのBERTのような微調整済み言語エンコーダの成功にもかかわらず、ニューラルネットワークが微調整後にどのように変化するかはいまだに理解されていない。
本研究では,学習表現の比較手法であるセンタード・カーネルアライメント(cka)を用いて,レイヤ間のタスク調整モデルにおける表現の類似性を測定する。
12のNLUタスクを対象とした実験では、細調整されたRoBERTaとALBERTモデル内の表現の類似性において一貫したブロック対角構造が発見され、初期層と後期層のクラスタ内では強い類似性があるが、それらの間にはない。
後段のレイヤ表現の類似性は、後段のレイヤがタスクパフォーマンスにわずかに寄与することを示し、さらにチューニングを行なわずとも、細調整されたトランスフォーマの上位数層が性能を損なうことなく破棄可能であることを実験で検証する。
関連論文リスト
- Characterization of topological structures in different neural network architectures [0.0]
本研究では,異なるアーキテクチャの表現を解析し,その表現を用いて有効な結果を得る方法を提案する。
これらの手法をResNet, VGG19, ViTアーキテクチャに適用し, 類似点と相違点が認められた。
論文 参考訳(メタデータ) (2024-07-08T18:02:18Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - HyPe: Better Pre-trained Language Model Fine-tuning with Hidden
Representation Perturbation [50.90457644954857]
トランスフォーマー層を隠蔽した表現を摂動することで問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。
我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。
その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。
論文 参考訳(メタデータ) (2022-12-17T11:56:21Z) - Self-Distilled Self-Supervised Representation Learning [35.60243157730165]
自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
論文 参考訳(メタデータ) (2021-11-25T07:52:36Z) - Similarity and Matching of Neural Network Representations [0.0]
我々は、深層ニューラルネットワークにおける表現の類似性を分析するために、Frankenstein博士と呼ばれるツールセットを使用します。
我々は、2つのトレーニングニューラルネットワークの与えられた層上でのアクティベーションを、縫合層で結合することで一致させることを目指している。
論文 参考訳(メタデータ) (2021-10-27T17:59:46Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。