論文の概要: How not to Stitch Representations to Measure Similarity: Task Loss Matching versus Direct Matching
- arxiv url: http://arxiv.org/abs/2412.11299v1
- Date: Sun, 15 Dec 2024 20:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:21.889372
- Title: How not to Stitch Representations to Measure Similarity: Task Loss Matching versus Direct Matching
- Title(参考訳): 類似度を測定するために表現を固定しない方法:タスク損失マッチングと直接マッチング
- Authors: András Balogh, Márk Jelasity,
- Abstract要約: タスク損失マッチングは類似度指標として非常に誤解を招く可能性があると我々は主張する。
これは非常に遠い層の間の非常に高い類似性を示し、その表現は異なる機能特性を持つことが知られている。
さらに驚くべきことに、同一ネットワーク内のレイヤを比較する場合、タスク損失マッチングは、一部のレイヤがそれ自身よりもレイヤに類似していることを示すことが多い。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: Measuring the similarity of the internal representations of deep neural networks is an important and challenging problem. Model stitching has been proposed as a possible approach, where two half-networks are connected by mapping the output of the first half-network to the input of the second one. The representations are considered functionally similar if the resulting stitched network achieves good task-specific performance. The mapping is normally created by training an affine stitching layer on the task at hand while freezing the two half-networks, a method called task loss matching. Here, we argue that task loss matching may be very misleading as a similarity index. For example, it can indicate very high similarity between very distant layers, whose representations are known to have different functional properties. Moreover, it can indicate very distant layers to be more similar than architecturally corresponding layers. Even more surprisingly, when comparing layers within the same network, task loss matching often indicates that some layers are more similar to a layer than itself. We argue that the main reason behind these problems is that task loss matching tends to create out-of-distribution representations to improve task-specific performance. We demonstrate that direct matching (when the mapping minimizes the distance between the stitched representations) does not suffer from these problems. We compare task loss matching, direct matching, and well-known similarity indices such as CCA and CKA. We conclude that direct matching strikes a good balance between the structural and functional requirements for a good similarity index.
- Abstract(参考訳): ディープニューラルネットワークの内部表現の類似性を測定することは、重要かつ困難な問題である。
2つのハーフネットワークが、第1ハーフネットワークの出力を第2ハーフネットワークの入力にマッピングすることで接続される。
これらの表現は、結果の縫合されたネットワークが良好なタスク固有性能を達成した場合、機能的に類似していると考えられる。
マッピングは通常、タスク上のアフィン縫合層のトレーニングと、2つのハーフネットワークの凍結によって作成される。
ここでは、タスク損失マッチングが類似度指標として非常に誤解を招く可能性があると論じる。
例えば、非常に離れた層の間の非常に高い類似性を示すことができ、その表現は異なる機能特性を持つことが知られている。
さらに、非常に離れた層がアーキテクチャ上対応する層と似ていることを示すこともできる。
さらに驚くべきことに、同一ネットワーク内のレイヤを比較する場合、タスク損失マッチングは、一部のレイヤがそれ自身よりもレイヤに類似していることを示すことが多い。
これらの問題の背後にある主な理由は、タスク固有のパフォーマンスを改善するために、タスク損失マッチングが配布外表現を生成する傾向があることである、と我々は主張する。
直接マッチング(写像が縫合された表現間の距離を最小化する場合)がこれらの問題に支障を来さないことを示す。
タスク損失マッチング,直接マッチング,CCAやCKAなどのよく知られた類似性指標を比較した。
直接マッチングは、よい類似度指数に対する構造的要求と機能的要求のバランスが良いと結論づける。
関連論文リスト
- On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Coneheads: Hierarchy Aware Attention [40.685504511826885]
ドット製品への注目の代替として,コーンアテンションを導入します。
コーンアテンションは双曲錐によって定義される階層の中で、それらの最も低い共通の祖先の深さによって2つの点を関連付ける。
ドット製品注意やその他のベースラインよりもタスクレベルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-06-01T06:53:14Z) - Global-Local Self-Distillation for Visual Representation Learning [41.24728444810133]
より豊かで意味のある勾配更新は、自己教師型のメソッドがより良く、より効率的に学習できるようにするための鍵です。
典型的な自己蒸留フレームワークでは、2つの拡張画像の表現をグローバルレベルでコヒーレントに強制する。
入力画像の空間情報を利用して幾何マッチングを求める。
論文 参考訳(メタデータ) (2022-07-29T13:50:09Z) - Similarity and Matching of Neural Network Representations [0.0]
我々は、深層ニューラルネットワークにおける表現の類似性を分析するために、Frankenstein博士と呼ばれるツールセットを使用します。
我々は、2つのトレーニングニューラルネットワークの与えられた層上でのアクティベーションを、縫合層で結合することで一致させることを目指している。
論文 参考訳(メタデータ) (2021-10-27T17:59:46Z) - Fine-Tuned Transformers Show Clusters of Similar Representations Across
Layers [27.68150225442148]
カーネルアライメント(CKA)を用いて、レイヤ間のタスクチューニングモデルにおける表現の類似性を計測する。
12のNLUタスクを対象とした実験では、細調整されたRoBERTaおよびALBERTモデル内の表現の類似性において、一貫したブロック対角構造が発見された。
実験では、微調整トランスフォーマーの上位数層は、それ以上のチューニングを行わなくても、パフォーマンスを損なうことなく破棄できることを確認した。
論文 参考訳(メタデータ) (2021-09-17T08:32:41Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Why Do Better Loss Functions Lead to Less Transferable Features? [93.47297944685114]
本稿では,画像ネット上で学習した畳み込みニューラルネットワークの隠れ表現が,学習対象の選択が伝達可能性に与える影響について検討する。
我々は,多くの目的が,バニラソフトマックスのクロスエントロピーよりも画像ネットの精度を統計的に有意に向上させることを示した。
論文 参考訳(メタデータ) (2020-10-30T17:50:31Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - GOCor: Bringing Globally Optimized Correspondence Volumes into Your
Neural Network [176.3781969089004]
特徴相関層は、画像ペア間の密接な対応を含むコンピュータビジョン問題において、重要なニューラルネットワークモジュールとして機能する。
我々は,特徴相関層の直接置換として機能する,完全に微分可能な密マッチングモジュール GOCor を提案する。
本手法は,幾何マッチング,光学フロー,密接なセマンティックマッチングのタスクにおいて,特徴相関層を著しく上回っている。
論文 参考訳(メタデータ) (2020-09-16T17:33:01Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。