Fugu-MT 論文翻訳(概要): Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training

論文の概要: Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training

arxiv url: http://arxiv.org/abs/2409.16767v2
Date: Fri, 28 Feb 2025 14:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:44.98763
Title: Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training
Title（参考訳）: 教師訓練における神経崩壊に伴う情報理論メトリクスの探索
Authors: Kun Song, Zhiquan Tan, Bochao Zou, Jiansheng Chen, Huimin Ma, Weiran Huang,
Abstract要約: 本稿では,教師あり学習のための分析ツールとして行列エントロピーを導入する。ニューラルネットワークがニューラルネットワークに近づくと,行列エントロピーがデータ表現の情報量の変化を効果的に捉えていることが示される。また、事前訓練されたモデルの微調整を最適化するために、クロスモデルアライメント(CMA)損失を提案する。
参考スコア（独自算出の注目度）: 14.9343236333741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce matrix entropy as an analytical tool for studying supervised learning, investigating the information content of data representations and classification head vectors, as well as the dynamic interactions between them during the supervised learning process. Our experimental results reveal that matrix entropy effectively captures the variations in information content of data representations and classification head vectors as neural networks approach Neural Collapse during supervised training, while also serving as a robust metric for measuring similarity among data samples. Leveraging this property, we propose Cross-Model Alignment (CMA) loss to optimize the fine-tuning of pretrained models. To characterize the dynamics of neural networks nearing the Neural Collapse state, we introduce two novel metrics: the Matrix Mutual Information Ratio (MIR) and the Matrix Entropy Difference Ratio (HDR), which quantitatively assess the interactions between data representations and classification heads in supervised learning, with theoretical optimal values derived under the Neural Collapse state. Our experiments demonstrate that MIR and HDR effectively explain various phenomena in neural networks, including the dynamics of standard supervised training, linear mode connectivity. Moreover, we use MIR and HDR to analyze the dynamics of grokking, which is a fascinating phenomenon in supervised learning where a model unexpectedly exhibits generalization long after achieving training data fit.
Abstract（参考訳）: 本稿では,教師あり学習過程における行列エントロピーを解析ツールとして導入し,データ表現と分類ヘッドベクトルの情報内容と,それら間の動的相互作用について検討する。実験結果から,行列エントロピーは,教師付きトレーニング中のニューラル崩壊にアプローチするニューラルネットワークとして,データ表現や分類ヘッドベクトルの情報量の変化を効果的に捉えると同時に,データサンプル間の類似性を測定するための堅牢な指標として機能することがわかった。この特性を活用することで、事前訓練されたモデルの微調整を最適化するために、クロスモデルアライメント(CMA)損失を提案する。ニューラル崩壊状態に近いニューラルネットワークの力学を特徴付けるために,ニューラル崩壊状態に基づく理論的最適値を用いて,教師付き学習におけるデータ表現と分類ヘッドの相互作用を定量的に評価するマトリックス相互情報比(MIR)とマトリックスエントロピー差率(HDR)の2つの新しい指標を紹介した。我々の実験は、MIRとHDRが、標準教師付きトレーニングのダイナミクス、線形モード接続など、ニューラルネットワークの様々な現象を効果的に説明できることを実証した。さらに,MIR と HDR を用いてグルーキングのダイナミクスを解析する。これは教師あり学習において,モデルが学習データに適合した後,予期しないほど一般化を示すという驚くべき現象である。

関連論文リスト

Towards Understanding the Benefits of Neural Network Parameterizations in Geophysical Inversions: A Study With Neural Fields [1.7396556690675236]
本研究では、ニューラルネットワークを用いて、その座標における対応する物理特性値に座標をマッピングする。テスト時間学習法では、トレーニングデータセットを用いてネットワークをトレーニングする必要がある従来のアプローチと比較して、ウェイトをインバージョン中に学習する。
論文参考訳（メタデータ） (2025-03-21T19:32:52Z)
Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks [0.0]
複雑なシステムでは、情報伝達は拡散または非局在化、弱局所化、強局所化と定義できる。本研究では,線形力学系のネットワーク上での挙動を学習するために,グラフニューラルネットワークモデルの適用について検討する。
論文参考訳（メタデータ） (2025-02-02T17:29:10Z)
Inferring stochastic low-rank recurrent neural networks from neural data [5.179844449042386]
計算神経科学における中心的な目的は、大きなニューロンの活動と基礎となる力学系を関連付けることである。低ランクリカレントニューラルネットワーク(RNN)は、トラクタブルダイナミクスを持つことによって、そのような解釈可能性を示す。そこで本研究では,低ランクRNNをモンテカルロ変分法に適合させる手法を提案する。
論文参考訳（メタデータ） (2024-06-24T15:57:49Z)
Unveiling the Dynamics of Information Interplay in Supervised Learning [10.122733373023074]
本研究では,行列情報理論を解析ツールとして用いて,教師付き学習プロセスにおけるデータ表現と分類ヘッドベクトル間の情報相互作用のダイナミクスを解析する。実験の結果,MIRとHDRはニューラルネットワークで発生する多くの現象を効果的に説明できることがわかった。教師付きおよび半教師付き学習において,MIRとHDRの損失項を導入し,サンプルと分類ヘッド間の情報相互作用を最適化する。
論文参考訳（メタデータ） (2024-06-06T12:17:57Z)
An Information Theoretic Evaluation Metric For Strong Unlearning [20.143627174765985]
情報理論にインスパイアされた新しいホワイトボックス計量であるIDI(Information difference Index)を導入する。 IDIは、これらの特徴と忘れるべきラベルの相互情報を測定することにより、中間特徴の保持情報を定量化する。我々の実験は、IDIが様々なデータセットやアーキテクチャをまたいだアンラーニングの度合いを効果的に測定できることを実証した。
論文参考訳（メタデータ） (2024-05-28T06:57:01Z)
Demolition and Reinforcement of Memories in Spin-Glass-like Neural Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。 Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文参考訳（メタデータ） (2024-03-04T23:12:42Z)
Revisiting Self-supervised Learning of Speech Representation from a Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文参考訳（メタデータ） (2024-01-16T21:13:22Z)
Assessing Neural Network Representations During Training Using Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文参考訳（メタデータ） (2023-12-04T01:32:42Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文参考訳（メタデータ） (2022-02-21T18:59:03Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Information-Bottleneck-Based Behavior Representation Learning for Multi-agent Reinforcement learning [16.024781473545055]
深層強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束と拡張性を達成することが重要である。本稿では,多エージェント強化学習(IBORM)のための他のエージェントの行動表現学習を行い,低次元マッピングエンコーダを明示的に求める。
論文参考訳（メタデータ） (2021-09-29T04:22:49Z)
Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文参考訳（メタデータ） (2021-08-23T09:31:18Z)
Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。 CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文参考訳（メタデータ） (2021-06-11T21:45:44Z)
Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。補助情報に基づいてデータクラスタを構築する。我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文参考訳（メタデータ） (2021-06-05T11:01:15Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文参考訳（メタデータ） (2020-10-19T17:59:01Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)
An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文参考訳（メタデータ） (2020-06-19T22:05:19Z)
Graph Representation Learning via Graphical Mutual Information Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文参考訳（メタデータ） (2020-02-04T08:33:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。