Fugu-MT 論文翻訳(概要): How a student becomes a teacher: learning and forgetting through Spectral methods

論文の概要: How a student becomes a teacher: learning and forgetting through Spectral methods

arxiv url: http://arxiv.org/abs/2310.12612v1
Date: Thu, 19 Oct 2023 09:40:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 15:55:49.582648
Title: How a student becomes a teacher: learning and forgetting through Spectral methods
Title（参考訳）: 学生が教師になる方法: スペクトル法を通して学び忘れていく
Authors: Lorenzo Giambagli, Lorenzo Buffoni, Lorenzo Chicchi, Duccio Fanelli
Abstract要約: 理論MLでは、教師パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。本研究では、根本的に異なる最適化スキームを提案することにより、飛躍的に前進する。このフレームワークで作業することで、教師の真の複雑さを反映した安定した学生のサブ構造を分離できる。
参考スコア（独自算出の注目度）: 1.1470070927586018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In theoretical ML, the teacher-student paradigm is often employed as an effective metaphor for real-life tuition. The above scheme proves particularly relevant when the student network is overparameterized as compared to the teacher network. Under these operating conditions, it is tempting to speculate that the student ability to handle the given task could be eventually stored in a sub-portion of the whole network. This latter should be to some extent reminiscent of the frozen teacher structure, according to suitable metrics, while being approximately invariant across different architectures of the student candidate network. Unfortunately, state-of-the-art conventional learning techniques could not help in identifying the existence of such an invariant subnetwork, due to the inherent degree of non-convexity that characterizes the examined problem. In this work, we take a leap forward by proposing a radically different optimization scheme which builds on a spectral representation of the linear transfer of information between layers. The gradient is hence calculated with respect to both eigenvalues and eigenvectors with negligible increase in terms of computational and complexity load, as compared to standard training algorithms. Working in this framework, we could isolate a stable student substructure, that mirrors the true complexity of the teacher in terms of computing neurons, path distribution and topological attributes. When pruning unimportant nodes of the trained student, as follows a ranking that reflects the optimized eigenvalues, no degradation in the recorded performance is seen above a threshold that corresponds to the effective teacher size. The observed behavior can be pictured as a genuine second-order phase transition that bears universality traits.
Abstract（参考訳）: 理論MLでは、教師-学生パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。この方式は,教師ネットワークと比較して生徒ネットワークが過小評価されている場合,特に有意である。これらの運用条件下では、与えられたタスクを扱う学生の能力が最終的にネットワーク全体のサブポートに格納される可能性があると推測する傾向にある。後者は、学生候補ネットワークの異なるアーキテクチャ間でほぼ不変でありながら、適切な指標に従って、凍結した教師構造をある程度思い出させるべきである。残念ながら、最先端の従来の学習技術は、検査された問題を特徴づける非凸性の固有の程度のために、そのような不変サブネットワークの存在を特定するのに役立たなかった。本研究では,レイヤ間の情報の線形伝達のスペクトル表現を基盤とした,根本的に異なる最適化手法を提案する。したがって、勾配は、通常の訓練アルゴリズムと比較して計算量や複雑性の負荷が無視できる固有値と固有ベクトルの両方で計算される。この枠組みで作業することで、教師の真の複雑さを、計算ニューロン、経路分布、トポロジ的属性の観点から反映する安定した学生サブ構造を分離できる。訓練生の重要でないノードを刈り取るとき、最適化された固有値を反映したランクに従えば、記録されたパフォーマンスの劣化は、効果的な教師サイズに対応する閾値以上では見られない。観察された挙動は、普遍性特性を持つ真の二階相遷移として描かれる。

関連論文リスト

Feature Representation Transferring to Lightweight Models via Perception Coherence [3.3975558777609915]
より大規模な教師モデルから軽量な学生モデルに特徴表現を伝達する手法を提案する。提案手法は,表現の転送を行う強力なベースライン手法に比べて性能が優れ,性能が向上する。
論文参考訳（メタデータ） (2025-05-10T10:55:06Z)
What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文参考訳（メタデータ） (2024-06-04T05:30:16Z)
Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文参考訳（メタデータ） (2024-02-23T16:50:07Z)
The Copycat Perceptron: Smashing Barriers Through Collective Learning [3.55026004901472]
本研究では,各学生の一般化性能に影響を及ぼすサーマルノイズが存在する場合の一般的な設定を解析する。レプリカの結合は、$alpha$の小さな値への位相図の曲がりに繋がることがわかった。これらの結果は、最近推測されたReplicated Simulated Annealingのベイズ最適性に関する解析的および数値的な証拠を与える。
論文参考訳（メタデータ） (2023-08-07T17:51:09Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Isometric Representations in Neural Networks Improve Robustness [0.0]
我々は、クラス内メートル法構造を同時に維持しながら分類を行うためにニューラルネットワークを訓練する。我々は、等尺正則化がMNISTに対する敵攻撃に対する堅牢性を改善することを検証する。
論文参考訳（メタデータ） (2022-11-02T16:18:18Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
On the training of sparse and dense deep neural networks: less parameters, same performance [0.0]
本稿では,2021年に発表されたスペクトル学習手法の変種を提案する。固有値は検証可能なノブとして機能し、(i)入力ノードの寄与を増強したり、あるいは沈黙したりするために自由に調整することができる。それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、この特性を効果的に活用し、見事な分類能力を持つスパースネットワークを創出する。
論文参考訳（メタデータ） (2021-06-17T14:54:23Z)
Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2021-05-11T04:09:49Z)
Soft Mode in the Dynamics of Over-realizable On-line Learning for Soft Committee Machines [0.0]
勾配降下によって訓練された過パラメータ深層ニューラルネットワークは、実用的妥当性の多くのタスクの実行に成功している。学生-教師のシナリオの文脈では、これはいわゆる過剰実現可能なケースに対応する。過剰に実現可能なケースにおける2層ソフトコミッションマシンのオンライン学習では、完璧な学習へのアプローチがパワーローな方法で起こることが分かりました。
論文参考訳（メタデータ） (2021-04-29T17:55:58Z)
Representation Transfer by Optimal Transport [34.77292648424614]
2つの表現間の一致を定量化するために最適な輸送を用いる。この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
論文参考訳（メタデータ） (2020-07-13T23:42:06Z)
Eigendecomposition-Free Training of Deep Networks for Linear Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。我々の手法は収束特性が良く、最先端の結果が得られます。
論文参考訳（メタデータ） (2020-04-15T04:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。