論文の概要: Clustering Head: A Visual Case Study of the Training Dynamics in Transformers
- arxiv url: http://arxiv.org/abs/2410.24050v2
- Date: Sun, 02 Feb 2025 12:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:32.644019
- Title: Clustering Head: A Visual Case Study of the Training Dynamics in Transformers
- Title(参考訳): クラスタリングヘッド:変圧器のトレーニングダイナミクスの視覚的ケーススタディ
- Authors: Ambroise Odonnat, Wassim Bouaziz, Vivien Cabannes,
- Abstract要約: 本稿では,スパースモジュールの追加タスクを導入し,トランスフォーマーがそれをどのように学習するかを検討する。
トレーニングプロセスを通じて各レイヤを包括的に視覚化するビジュアルサンドボックスを導入しています。
- 参考スコア(独自算出の注目度): 2.900289363118179
- License:
- Abstract: This paper introduces the sparse modular addition task and examines how transformers learn it. We focus on transformers with embeddings in $\R^2$ and introduce a visual sandbox that provides comprehensive visualizations of each layer throughout the training process. We reveal a type of circuit, called "clustering heads," which learns the problem's invariants. We analyze the training dynamics of these circuits, highlighting two-stage learning, loss spikes due to high curvature or normalization layers, and the effects of initialization and curriculum learning.
- Abstract(参考訳): 本稿では,スパースモジュールの追加タスクを導入し,トランスフォーマーがそれをどのように学習するかを検討する。
トレーニングプロセスを通じて各レイヤを包括的に視覚化するビジュアルサンドボックスを導入する。
我々は,問題の不変性を学習する「クラスタリングヘッド」と呼ばれる回路のタイプを明らかにする。
本研究では、これらの回路のトレーニングダイナミクスを分析し、二段階学習、高い曲率や正規化層による損失スパイク、初期化とカリキュラム学習の効果について分析する。
関連論文リスト
- Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。
トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文 参考訳(メタデータ) (2025-01-30T15:56:25Z) - Inverting Visual Representations with Detection Transformers [0.8124699127636158]
本研究では,検出変換器内の中間層からの入力画像を再構成するために,逆モデルのトレーニング手法を適用する。
本研究では, テクスチャ形状の堅牢性, 層間相関, 色摂動の保存など, 検出変換器の臨界特性を示す。
論文 参考訳(メタデータ) (2024-12-09T14:43:06Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers [2.1572258716881905]
我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
論文 参考訳(メタデータ) (2024-07-10T17:10:10Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。