論文の概要: Revisiting Transformers through the Lens of Low Entropy and Dynamic Sparsity
- arxiv url: http://arxiv.org/abs/2504.18929v1
- Date: Sat, 26 Apr 2025 14:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.051613
- Title: Revisiting Transformers through the Lens of Low Entropy and Dynamic Sparsity
- Title(参考訳): 低エントロピー・ダイナミックスペーサレンズによる変圧器の再検討
- Authors: Ruifeng Ren, Yong Liu,
- Abstract要約: トランスフォーマーはデータ圧縮においてユニークな帰納バイアスを示す。
また、より大きな変換器は注意計算をバイパスするより強い嗜好を示すことを示す。
我々の研究は、エントロピーとダイナミックスポーシティのレンズからトランスフォーマーの深い理解に寄与している。
- 参考スコア(独自算出の注目度): 9.590540796223715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compression has been a critical lens to understand the success of Transformers. In the past, we have typically taken the target distribution as a criterion to evaluate a model's compression performance. Nevertheless,it often remains challenging to precisely assess how well the model achieves compression and to compare the information content of the learned distribution with that of the target distribution during compression,as the target distribution is typically unknown and entropy computation often incurs exponential cost. In this work, we explore these issues under a controlled experimental setup. We find that Transformers exhibit a unique inductive bias in data compression: beyond approaching the target distribution, they tend to favor learning lower-entropy distributions, with this tendency becoming more pronounced as the model size increases. This preference prevents Transformers from perfectly aligning with the target distribution, instead further compressing its information content. Furthermore, we show that the FFN module plays a critical role in driving this bias. In addition, while models remove informational redundancy from data during compression, they also exhibit redundancy within their parameters, which enables compression and can be characterized through dynamic sparsity. However, the dynamic sparsity patterns in Transformers, particularly in attention and FFN modules, demand further exploration. As for this, we show that larger Transformers show stronger preferences for bypassing attention computations via residual connections and have lower proportion of active neurons. Interestingly, we also find that training instability in larger models strongly correlates with sudden increases in dead neurons. Our work contributes to a deeper understanding of Transformers from the lens of entropy and dynamic sparsity.
- Abstract(参考訳): 圧縮はトランスフォーマーの成功を理解するための重要なレンズである。
これまで我々は,モデル圧縮性能を評価するために,目標分布を基準として捉えてきた。
それでも、モデルがいかに圧縮を達成できるかを正確に評価し、学習した分布の情報内容と圧縮中の対象分布の情報とを比較することは、しばしば困難である。
本研究では,これらの課題を制御された実験環境下で検討する。
対象の分布に近づくだけでなく、低いエントロピー分布を学習する傾向があり、モデルのサイズが大きくなるにつれて、この傾向はより顕著になる。
この好みにより、トランスフォーマーはターゲットの分布と完全に整合することを防ぎ、その代わりに情報内容をさらに圧縮する。
さらに,FFNモジュールがこのバイアスを駆動する上で重要な役割を担っていることを示す。
さらに、モデルが圧縮中のデータから情報冗長性を除去する一方で、パラメータ内での冗長性も示し、圧縮を可能にし、ダイナミックな空間性を通じて特徴付けることができる。
しかし、トランスフォーマーの動的スパーシティパターン、特に注目とFFNモジュールは、さらなる探索を必要としている。
これについて,大きなトランスフォーマーは,残差接続による注意計算を回避し,活動ニューロンの割合が低い傾向を示す。
興味深いことに、より大きなモデルのトレーニング不安定性は、死ニューロンの急激な増加と強く相関している。
我々の研究は、エントロピーとダイナミックスポーシティのレンズからトランスフォーマーの深い理解に寄与する。
関連論文リスト
- Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。
すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。
我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文 参考訳(メタデータ) (2024-11-20T04:20:17Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data [39.41800375686212]
ビデオ生成のためのSoraのバックボーンであるDiffusion Transformerは、拡散モデルのキャパシティをうまく拡張する。
空間的・時間的依存関係を捉えるための拡散変圧器のブリッジ化に向けた第一歩を踏み出す。
空間的時間的依存が学習効率にどのように影響するかを強調した。
論文 参考訳(メタデータ) (2024-07-23T02:42:43Z) - The Information Pathways Hypothesis: Transformers are Dynamic
Self-Ensembles [24.52890377175555]
本研究では,学習中の自己注意の記憶と計算コストを4~8倍に削減できる変圧器の汎用的学習戦略を提案する。
本研究では,ネットワーク内のサブサンプリング経路からサブモデルのアンサンブルを生成できることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:28:46Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。