論文の概要: An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models
- arxiv url: http://arxiv.org/abs/2411.17182v1
- Date: Tue, 26 Nov 2024 07:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:14.926885
- Title: An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models
- Title(参考訳): 変圧器様モデルにおけるスパースレート低減の詳細な検討
- Authors: Yunzhe Hu, Difan Zou, Dong Xu,
- Abstract要約: スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
- 参考スコア(独自算出の注目度): 32.04194224236952
- License:
- Abstract: Deep neural networks have long been criticized for being black-box. To unveil the inner workings of modern neural architectures, a recent work \cite{yu2024white} proposed an information-theoretic objective function called Sparse Rate Reduction (SRR) and interpreted its unrolled optimization as a Transformer-like model called Coding Rate Reduction Transformer (CRATE). However, the focus of the study was primarily on the basic implementation, and whether this objective is optimized in practice and its causal relationship to generalization remain elusive. Going beyond this study, we derive different implementations by analyzing layer-wise behaviors of CRATE, both theoretically and empirically. To reveal the predictive power of SRR on generalization, we collect a set of model variants induced by varied implementations and hyperparameters and evaluate SRR as a complexity measure based on its correlation with generalization. Surprisingly, we find out that SRR has a positive correlation coefficient and outperforms other baseline measures, such as path-norm and sharpness-based ones. Furthermore, we show that generalization can be improved using SRR as regularization on benchmark image classification datasets. We hope this paper can shed light on leveraging SRR to design principled models and study their generalization ability.
- Abstract(参考訳): ディープニューラルネットワークはブラックボックスであるとして長年批判されてきた。
現代のニューラルアーキテクチャの内部構造を明らかにするために、最近の研究 \cite{yu2024white} はスパースレートリダクション (SRR) と呼ばれる情報理論の目的関数を提案し、そのアンロール最適化を、コードレートリダクショントランスフォーマー (CRATE) と呼ばれるトランスフォーマーライクなモデルとして解釈した。
しかし,本研究の焦点は基本的実装であり,この目的が実際に最適化されているか,一般化への因果関係はいまだ解明されていない。
本研究では, CRATEの層間挙動を理論的・実験的に解析することにより, 異なる実装を導出する。
一般化におけるSRRの予測力を明らかにするため,様々な実装やハイパーパラメータによって誘導されるモデル変異の集合を収集し,SRRを一般化との相関に基づく複雑性尺度として評価する。
驚くべきことに、SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることが判明した。
さらに、ベンチマーク画像分類データセットの正規化として、SRRを用いて一般化を改善することができることを示す。
本論文は,SRRの原理モデルの設計と一般化能力の研究に光を当てることが期待できる。
関連論文リスト
- The Price of Implicit Bias in Adversarially Robust Generalization [25.944485657150146]
頑健な経験的リスク最小化(robust ERM)における最適化の暗黙バイアスについて検討する。
本研究では,ロバストEMMにおける最適化の暗黙バイアスがモデルのロバスト性に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2024-06-07T14:44:37Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Extrapolatable Relational Reasoning With Comparators in Low-Dimensional
Manifolds [7.769102711230249]
本稿では,現在のニューラルネットワークアーキテクチャと容易に融合可能な,神経科学にインスパイアされた誘導バイアスモジュールを提案する。
この誘導バイアスを持つニューラルネットは、様々な関係推論タスクにおいて、O.o.d一般化性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-06-15T19:09:13Z) - Multivariate Functional Regression via Nested Reduced-Rank
Regularization [2.730097437607271]
多変量関数応答と予測器を備えた回帰モデルに適用するネスト型低ランク回帰(NRRR)手法を提案する。
非漸近解析により、NRRRは少なくとも低ランク回帰と同等の誤差率を達成できることを示す。
NRRRを電力需要問題に適用し、日中電力消費の軌跡と日中電力消費の軌跡を関連づける。
論文 参考訳(メタデータ) (2020-03-10T14:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。