論文の概要: Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training
- arxiv url: http://arxiv.org/abs/2409.16767v2
- Date: Fri, 28 Feb 2025 14:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:37:49.018233
- Title: Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training
- Title(参考訳): 教師訓練における神経崩壊に伴う情報理論メトリクスの探索
- Authors: Kun Song, Zhiquan Tan, Bochao Zou, Jiansheng Chen, Huimin Ma, Weiran Huang,
- Abstract要約: 本稿では,教師あり学習のための分析ツールとして行列エントロピーを導入する。
ニューラルネットワークがニューラルネットワークに近づくと,行列エントロピーがデータ表現の情報量の変化を効果的に捉えていることが示される。
また、事前訓練されたモデルの微調整を最適化するために、クロスモデルアライメント(CMA)損失を提案する。
- 参考スコア(独自算出の注目度): 14.9343236333741
- License:
- Abstract: In this paper, we introduce matrix entropy as an analytical tool for studying supervised learning, investigating the information content of data representations and classification head vectors, as well as the dynamic interactions between them during the supervised learning process. Our experimental results reveal that matrix entropy effectively captures the variations in information content of data representations and classification head vectors as neural networks approach Neural Collapse during supervised training, while also serving as a robust metric for measuring similarity among data samples. Leveraging this property, we propose Cross-Model Alignment (CMA) loss to optimize the fine-tuning of pretrained models. To characterize the dynamics of neural networks nearing the Neural Collapse state, we introduce two novel metrics: the Matrix Mutual Information Ratio (MIR) and the Matrix Entropy Difference Ratio (HDR), which quantitatively assess the interactions between data representations and classification heads in supervised learning, with theoretical optimal values derived under the Neural Collapse state. Our experiments demonstrate that MIR and HDR effectively explain various phenomena in neural networks, including the dynamics of standard supervised training, linear mode connectivity. Moreover, we use MIR and HDR to analyze the dynamics of grokking, which is a fascinating phenomenon in supervised learning where a model unexpectedly exhibits generalization long after achieving training data fit.
- Abstract(参考訳): 本稿では,教師あり学習過程における行列エントロピーを解析ツールとして導入し,データ表現と分類ヘッドベクトルの情報内容と,それら間の動的相互作用について検討する。
実験結果から,行列エントロピーは,教師付きトレーニング中のニューラル崩壊にアプローチするニューラルネットワークとして,データ表現や分類ヘッドベクトルの情報量の変化を効果的に捉えると同時に,データサンプル間の類似性を測定するための堅牢な指標として機能することがわかった。
この特性を活用することで、事前訓練されたモデルの微調整を最適化するために、クロスモデルアライメント(CMA)損失を提案する。
ニューラル崩壊状態に近いニューラルネットワークの力学を特徴付けるために,ニューラル崩壊状態に基づく理論的最適値を用いて,教師付き学習におけるデータ表現と分類ヘッドの相互作用を定量的に評価するマトリックス相互情報比(MIR)とマトリックスエントロピー差率(HDR)の2つの新しい指標を紹介した。
我々の実験は、MIRとHDRが、標準教師付きトレーニングのダイナミクス、線形モード接続など、ニューラルネットワークの様々な現象を効果的に説明できることを実証した。
さらに,MIR と HDR を用いてグルーキングのダイナミクスを解析する。これは教師あり学習において,モデルが学習データに適合した後,予期しないほど一般化を示すという驚くべき現象である。
関連論文リスト
- Unveiling the Dynamics of Information Interplay in Supervised Learning [10.122733373023074]
本研究では,行列情報理論を解析ツールとして用いて,教師付き学習プロセスにおけるデータ表現と分類ヘッドベクトル間の情報相互作用のダイナミクスを解析する。
実験の結果,MIRとHDRはニューラルネットワークで発生する多くの現象を効果的に説明できることがわかった。
教師付きおよび半教師付き学習において,MIRとHDRの損失項を導入し,サンプルと分類ヘッド間の情報相互作用を最適化する。
論文 参考訳(メタデータ) (2024-06-06T12:17:57Z) - An Information Theoretic Evaluation Metric For Strong Unlearning [20.143627174765985]
情報理論にインスパイアされた新しいホワイトボックス計量であるIDI(Information difference Index)を導入する。
IDIは、これらの特徴と忘れるべきラベルの相互情報を測定することにより、中間特徴の保持情報を定量化する。
我々の実験は、IDIが様々なデータセットやアーキテクチャをまたいだアンラーニングの度合いを効果的に測定できることを実証した。
論文 参考訳(メタデータ) (2024-05-28T06:57:01Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Information-Bottleneck-Based Behavior Representation Learning for
Multi-agent Reinforcement learning [16.024781473545055]
深層強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束と拡張性を達成することが重要である。
本稿では,多エージェント強化学習(IBORM)のための他のエージェントの行動表現学習を行い,低次元マッピングエンコーダを明示的に求める。
論文 参考訳(メタデータ) (2021-09-29T04:22:49Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。
CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文 参考訳(メタデータ) (2021-06-11T21:45:44Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。