論文の概要: Studying Cross-cluster Modularity in Neural Networks
- arxiv url: http://arxiv.org/abs/2502.02470v3
- Date: Fri, 25 Jul 2025 10:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:26.766349
- Title: Studying Cross-cluster Modularity in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるクロスクラスタのモジュラリティに関する研究
- Authors: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots,
- Abstract要約: クラスタビリティの尺度を定義し,事前学習したモデルが高度に集積されたクラスタを形成することを示す。
次に、非相互作用クラスタの形成を促進する"クラスタビリティ損失"関数を使用して、モデルをよりモジュール化するようにトレーニングします。
トレーニング済みのクラスタモデルでは,タスクの専門化は行わず,より小さな回路を形成する。
- 参考スコア(独自算出の注目度): 45.8172254436063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An approach to improve neural network interpretability is via clusterability, i.e., splitting a model into disjoint clusters that can be studied independently. We define a measure for clusterability and show that pre-trained models form highly enmeshed clusters via spectral graph clustering. We thus train models to be more modular using a "clusterability loss" function that encourages the formation of non-interacting clusters. We then investigate the emerging properties of these highly clustered models. We find our trained clustered models do not exhibit more task specialization, but do form smaller circuits. We investigate CNNs trained on MNIST and CIFAR, small transformers trained on modular addition, and GPT-2 and Pythia on the Wiki dataset, and Gemma on a Chemistry dataset. This investigation shows what to expect from clustered models.
- Abstract(参考訳): ニューラルネットワークの解釈可能性を改善するためのアプローチは、クラスタ可能性、すなわちモデルを独立して研究可能な非結合クラスタに分割することである。
我々は,クラスタビリティの尺度を定義し,事前学習したモデルがスペクトルグラフクラスタリングによって高度に集積されたクラスタを形成することを示す。
したがって、非相互作用クラスタの形成を促進する"クラスタビリティ損失"関数を使用して、モデルをよりモジュール化するようにトレーニングする。
次に、これらの高度にクラスタ化されたモデルの出現特性について検討する。
トレーニング済みのクラスタモデルでは,タスクの専門化は行わず,より小さな回路を形成する。
我々は、MNISTとCIFARで訓練されたCNN、モジュール追加で訓練された小さなトランスフォーマー、WikiデータセットでGPT-2とPythia、ScienceデータセットでGemmaについて検討する。
この調査は、クラスタ化されたモデルに何を期待するかを示す。
関連論文リスト
- Clustering via Self-Supervised Diffusion [6.9158153233702935]
Diffusion (CLUDI) によるクラスタリングは、拡散モデルの生成パワーと事前訓練されたビジョントランスフォーマーの機能を組み合わせて、堅牢で正確なクラスタリングを実現する、自己監督型のフレームワークである。
教師は拡散に基づくサンプリングを使用して多様なクラスタ割り当てを生成し、学生は安定した予測へと洗練する。
論文 参考訳(メタデータ) (2025-07-06T07:57:08Z) - Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - Generative Kernel Spectral Clustering [12.485601356990998]
本稿では,カーネルスペクトルクラスタリングと生成モデルを組み合わせた新しいモデルであるGenerative Kernel Spectral Clustering(GenKSC)を提案する。
MNISTとFashionMNISTデータセットの結果は、意味のあるクラスタ表現を学習するモデルの能力を示している。
論文 参考訳(メタデータ) (2025-02-04T09:59:45Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Training Neural Networks for Modularity aids Interpretability [0.6749750044497732]
ネットワークの解釈可能性を改善するためのアプローチは、クラスタ可能性、すなわち独立して研究できる解離クラスタにモデルを分割することである。
事前学習されたモデルは非常にクラスタ化できないため、非相互作用クラスタの形成を促進するエンメシュメントロス関数を用いてモデルをよりモジュラーに訓練する。
論文 参考訳(メタデータ) (2024-09-24T05:03:49Z) - Modular Growth of Hierarchical Networks: Efficient, General, and Robust Curriculum Learning [0.0]
与えられた古典的、非モジュラーリカレントニューラルネットワーク(RNN)に対して、等価なモジュラーネットワークが複数のメトリクスにわたってより良い性能を発揮することを示す。
モジュラートポロジによって導入された帰納バイアスは,モジュール内の接続が固定された場合でもネットワークが良好に動作可能であることを示す。
以上の結果から,RNNの段階的モジュラー成長は,進化の時間スケールで複雑なタスクを学習する上でのメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-10T13:44:07Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - LSEnet: Lorentz Structural Entropy Neural Network for Deep Graph Clustering [59.89626219328127]
グラフクラスタリングは機械学習の基本的な問題である。
近年、ディープラーニング手法は最先端の成果を達成しているが、事前に定義されたクラスタ番号なしでは動作できない。
本稿では,グラフ情報理論の新たな視点からこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:46:41Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - Clustering with Neural Network and Index [0.0]
CNNI(Clustering with Neural Network and Index)と呼ばれる新しいモデルが導入されている。
CNNIはニューラルネットワークを使用してデータポイントをクラスタリングし、内部クラスタリング評価インデックスが損失関数として機能する。
論文 参考訳(メタデータ) (2022-12-05T12:33:26Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Vine copula mixture models and clustering for non-Gaussian data [0.0]
連続データのための新しいブドウパウラ混合モデルを提案する。
本研究では, モデルベースクラスタリングアルゴリズムにおいて, ベインコプラ混合モデルが他のモデルベースクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-05T16:04:26Z) - CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional
Network for Clustering [51.62959830761789]
クロスアテンションに基づくディープクラスタリングフレームワークCross-Attention Fusion based Enhanced Graph Convolutional Network (CaEGCN)を提案する。
CaEGCNには、クロスアテンション融合、Content Auto-Encoder、Graph Convolutional Auto-Encoder、および自己監視モデルという4つの主要なモジュールが含まれている。
異なるタイプのデータセットに対する実験結果は、提案したCaEGCNの優位性とロバスト性を証明する。
論文 参考訳(メタデータ) (2021-01-18T05:21:59Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。