論文の概要: On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier
- arxiv url: http://arxiv.org/abs/2406.14479v1
- Date: Thu, 20 Jun 2024 16:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.180629
- Title: On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier
- Title(参考訳): 層ワイド表現類似性について:単一分類器を用いたマルチエクイットモデルへの適用
- Authors: Jiachen Jiang, Jinxin Zhou, Zhihui Zhu,
- Abstract要約: 本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
- 参考スコア(独自算出の注目度): 20.17288970927518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing the similarity of internal representations within and across different models has been an important technique for understanding the behavior of deep neural networks. Most existing methods for analyzing the similarity between representations of high dimensions, such as those based on Canonical Correlation Analysis (CCA) and widely used Centered Kernel Alignment (CKA), rely on statistical properties of the representations for a set of data points. In this paper, we focus on transformer models and study the similarity of representations between the hidden layers of individual transformers. In this context, we show that a simple sample-wise cosine similarity metric is capable of capturing the similarity and aligns with the complicated CKA. Our experimental results on common transformers reveal that representations across layers are positively correlated, albeit the similarity decreases when layers are far apart. We then propose an aligned training approach to enhance the similarity between internal representations, with trained models that enjoy the following properties: (1) the last-layer classifier can be directly applied right after any hidden layers, yielding intermediate layer accuracies much higher than those under standard training, (2) the layer-wise accuracies monotonically increase and reveal the minimal depth needed for the given task, (3) when served as multi-exit models, they achieve on-par performance with standard multi-exit architectures which consist of additional classifiers designed for early exiting in shallow layers. To our knowledge, our work is the first to show that one common classifier is sufficient for multi-exit models. We conduct experiments on both vision and NLP tasks to demonstrate the performance of the proposed aligned training.
- Abstract(参考訳): 異なるモデル内および異なるモデル間の内部表現の類似性を分析することは、ディープニューラルネットワークの振る舞いを理解するための重要なテクニックである。
カノニカル相関解析(CCA)や広く使われているCKA(Centered Kernel Alignment)など、高次元の表現間の類似性を解析するための既存の手法は、データポイントの集合に対する表現の統計的性質に依存している。
本稿では,変圧器モデルに着目し,各変圧器の隠蔽層間の表現の類似性について検討する。
この文脈では、単純なサンプル単位のコサイン類似度メートル法が類似度を捉え、複雑なCKAと整合できることが示される。
共用変圧器における実験結果から, 層間表現は正の相関関係にあることが明らかとなった。
次に, 内部表現の類似性を高めるための一貫したトレーニング手法を提案する。(1) 最終層分類器は, 隠蔽層の後すぐに直接適用でき, 中間層精度が標準トレーニングよりもはるかに高いこと,(2) 階層的精度が単調に増加し, 与えられたタスクに必要な最小深度を明らかにすること,(3) マルチエクイットモデルとして機能する場合には, 下位層への早期退避用に設計された標準マルチエクイットアーキテクチャによるオンパー性能を実現する。
我々の知る限り、我々の研究は、一つの共通分類器がマルチエグジットモデルに十分であることを示す最初のものである。
視覚とNLPの両方のタスクで実験を行い、提案したアライメントトレーニングの性能を実証する。
関連論文リスト
- Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。
Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文 参考訳(メタデータ) (2024-10-15T03:35:54Z) - Weighted Point Cloud Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric [44.95433989446052]
提案手法の利点は,CLIPの相対的損失に対する新たな理解を通じて示される。
重み付き点雲に基づく提案した類似性は、常に最適類似性を達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T03:15:04Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Learning Partial Correlation based Deep Visual Representation for Image
Classification [61.0532370259644]
CNNの新たな構造層としてスパース逆共分散推定(SICE)を定式化する。
本研究は,部分的相関に基づく深部視覚表現を求め,小さなサンプル問題を緩和する。
実験により,本モデルの有効性と優れた分類性能が示された。
論文 参考訳(メタデータ) (2023-04-23T10:09:01Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。