Fugu-MT 論文翻訳(概要): Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity

論文の概要: Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity

arxiv url: http://arxiv.org/abs/2406.14479v2
Date: Sat, 01 Feb 2025 19:29:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.105584
Title: Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity
Title（参考訳）: Tracing Representation Progression: Analyzing and Enhancing Layer-Wise similarity
Authors: Jiachen Jiang, Jinxin Zhou, Zhihui Zhu,
Abstract要約: 本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。層間の表現が正の相関を示し、層が近づくと類似度が増加する。浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
参考スコア（独自算出の注目度）: 20.17288970927518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analyzing the similarity of internal representations has been an important technique for understanding the behavior of deep neural networks. Most existing methods for analyzing the similarity between representations of high dimensions, such as those based on Centered Kernel Alignment (CKA), rely on statistical properties of the representations for a set of data points. In this paper, we focus on transformer models and study the similarity of representations between the hidden layers of individual transformers. In this context, we show that a simple sample-wise cosine similarity metric is capable of capturing the similarity and aligns with the complicated CKA. Our experimental results on common transformers reveal that representations across layers are positively correlated, with similarity increasing when layers get closer. We provide a theoretical justification for this phenomenon under the geodesic curve assumption for the learned transformer. We then show that an increase in representation similarity implies an increase in predicted probability when directly applying the last-layer classifier to any hidden layer representation. We then propose an aligned training method to improve the effectiveness of shallow layer by enhancing the similarity between internal representations, with trained models that enjoy the following properties: (1) more early saturation events, (2) layer-wise accuracies monotonically increase and reveal the minimal depth needed for the given task, (3) when served as multi-exit models, they achieve on-par performance with standard multi-exit architectures which consist of additional classifiers designed for early exiting in shallow layers. To our knowledge, our work is the first to show that one common classifier is sufficient for multi-exit models. We conduct experiments on both vision and NLP tasks to demonstrate the performance of the proposed aligned training.
Abstract（参考訳）: 内部表現の類似性を分析することは、ディープニューラルネットワークの振る舞いを理解する上で重要な手法である。 CKA(Centered Kernel Alignment)に基づくような、高次元の表現間の類似性を解析するための既存の手法は、データポイントの集合に対する表現の統計的性質に依存している。本稿では,変圧器モデルに着目し,各変圧器の隠蔽層間の表現の類似性について検討する。この文脈では、単純なサンプル単位のコサイン類似度メートル法が類似度を捉え、複雑なCKAと整合できることが示される。共用変圧器における実験結果から, 層間の表現は正の相関性を示し, 層が近づくと類似度が増大することがわかった。学習した変圧器の測地線曲線の仮定の下で、この現象を理論的に正当化する。次に,表現類似度の増加は,任意の隠蔽層表現に最終層分類器を直接適用する場合の予測確率の増加を意味することを示す。そこで我々は,(1) より早期飽和事象,(2) 階層的精度が単調に増加し,与えられたタスクに必要な最小深度を明らかにすること,(3) マルチエクイットモデルとして機能する場合には, 下位層への早期退避用に設計された付加分類器からなる標準マルチエクイットアーキテクチャのオンパー性能を実現することにより, 浅層表現の類似性を向上し, 浅層表現の有効性を向上させるためのアライメントトレーニング手法を提案する。我々の知る限り、我々の研究は、一つの共通分類器がマルチエグジットモデルに十分であることを示す最初のものである。視覚とNLPの両方のタスクで実験を行い、提案したアライメントトレーニングの性能を実証する。

関連論文リスト

Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。 Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文参考訳（メタデータ） (2024-10-15T03:35:54Z)
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。 ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文参考訳（メタデータ） (2024-09-12T05:55:32Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文参考訳（メタデータ） (2023-08-30T19:02:17Z)
Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文参考訳（メタデータ） (2023-07-13T09:39:10Z)
Learning Partial Correlation based Deep Visual Representation for Image Classification [61.0532370259644]
CNNの新たな構造層としてスパース逆共分散推定(SICE)を定式化する。本研究は,部分的相関に基づく深部視覚表現を求め,小さなサンプル問題を緩和する。実験により,本モデルの有効性と優れた分類性能が示された。
論文参考訳（メタデータ） (2023-04-23T10:09:01Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文参考訳（メタデータ） (2023-02-01T07:50:26Z)
Correlation between Alignment-Uniformity and Performance of Dense Contrastive Representations [11.266613717084788]
我々は,標準CNNと簡単な特徴マッチング方式を用いて,高密度コントラスト学習の理論的アイデアを分析する。正の高密度な特徴のペアを構築する際の基本原理を発見し、その妥当性を実証的に証明した。また、アライメント・アンド・ユニフォーム性と下流性能の相関関係を要約した新しいスカラー計量を導入する。
論文参考訳（メタデータ） (2022-10-17T08:08:37Z)
FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文参考訳（メタデータ） (2022-05-27T00:55:24Z)
Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文参考訳（メタデータ） (2022-03-23T12:52:49Z)
IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。 IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文参考訳（メタデータ） (2022-01-26T21:35:14Z)
Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-10-13T16:08:02Z)
No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文参考訳（メタデータ） (2021-06-09T12:02:29Z)
Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2021-06-04T14:39:03Z)
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文参考訳（メタデータ） (2021-04-08T08:21:59Z)
Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文参考訳（メタデータ） (2020-11-26T15:43:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。