論文の概要: Cutting the Skip: Training Residual-Free Transformers
- arxiv url: http://arxiv.org/abs/2510.00345v1
- Date: Tue, 30 Sep 2025 23:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.289682
- Title: Cutting the Skip: Training Residual-Free Transformers
- Title(参考訳): スキップを切る:残差なし変圧器の訓練
- Authors: Yiping Ji, James Martens, Jianqiao Zheng, Ziqin Zhou, Peyman Moghadam, Xinyu Zhang, Hemanth Saratchandran, Simon Lucey,
- Abstract要約: スキップ接続は表現の階層構造を妨害します
スキップが条件付けを改善する理由を示し、その安定化の利点が原則的戦略によって回復できることを明らかにする。
標準アーキテクチャを変更することなく、スキップレス変圧器の安定かつ効率的な訓練を可能にする最初の方法を提案する。
- 参考スコア(独自算出の注目度): 36.44084551425791
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have achieved remarkable success across a wide range of applications, a feat often attributed to their scalability. Yet training them without skip (residual) connections remains notoriously difficult. While skips stabilize optimization, they also disrupt the hierarchical structure of representations, raising the long-standing question of whether transformers can be trained efficiently without them. In this work, we address this problem by analyzing the Jacobian of a skipless transformer block, showing why skips improve conditioning and revealing that their stabilization benefits can be recovered through a principled initialization strategy. Building on this insight, we introduce the first method that enables stable and efficient training of skipless transformers without altering the standard architecture. We validate our approach on Vision Transformers (ViTs) in both supervised and self-supervised settings, demonstrating that skipless ViTs trained with our initialization overcome the usual optimization barriers, learn richer hierarchical representations, and outperform strong baselines, that incorporate skip connections, on dense prediction benchmarks. These results show that skip connections are not a fundamental requirement for training ViTs and open new avenues for hierarchical representation learning in vision models.
- Abstract(参考訳): トランスフォーマーは広範囲のアプリケーションで顕著な成功を収めた。
しかし、スキップ(残留)接続を使わずにトレーニングすることは、いまだに難しい。
スキップは最適化を安定させる一方で、表現の階層構造を破壊し、トランスフォーマーを効率的に訓練できるかどうかという長年の疑問を提起する。
本研究では, スキップレス変圧器ブロックのジャコビアン解析を行い, なぜスキップが条件付けを改善するのかを示し, 基本初期化戦略によって安定化の利点を回復できることを明らかにする。
この知見に基づいて、我々は、標準アーキテクチャを変更することなく、スキップレス変圧器の安定かつ効率的な訓練を可能にする最初の方法を紹介した。
教師付きおよび自己教師型設定の両方において視覚変換器(ViT)のアプローチを検証し、初期化で訓練されたスキップレスViTが通常の最適化障壁を克服し、より階層的な表現を学習し、スキップ接続を組み込んだ強いベースラインを高密度予測ベンチマークで上回ることを示す。
これらの結果から,スキップ接続は視覚モデルにおける階層的表現学習のためのViTの訓練や新たな道を開くための基本的な要件ではないことが示唆された。
関連論文リスト
- DyTTP: Trajectory Prediction with Normalization-Free Transformers [0.0]
トランスフォーマーベースのアーキテクチャは、複雑な堅牢性依存関係をキャプチャする上で大きな可能性を証明している。
これらの課題に対処するための2つのアプローチを提案する。
まず、トランスフォーマーを促進する最新の方法であるDynamicTanh(DyT)をバックボーンに統合し、従来のレイヤ正規化を置き換える。
DyTを軌道予測タスクにデプロイする最初の作業です。
論文 参考訳(メタデータ) (2025-04-07T09:26:25Z) - Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-02-28T16:40:38Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。