論文の概要: SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
- arxiv url: http://arxiv.org/abs/2602.08064v1
- Date: Sun, 08 Feb 2026 17:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.964631
- Title: SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
- Title(参考訳): SiameseNorm: バリアを壊してpre/post-Normをリコンシブルする
- Authors: Tianyu Li, Dongchen Han, Zixuan Cao, Haofeng Huang, Mengyu Zhou, Ming Chen, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang, Gao Huang,
- Abstract要約: 現代のトランスフォーマーは主に最適化の安定性のためにプレノームパラダイムを採用しており、不安定なポストノームアーキテクチャの優れた可能性を予見している。
我々は、Pre-NormのようなストリームとPost-Normのようなストリームを共有パラメータで結合する2ストリームアーキテクチャであるSiameseNormを提案する。
この設計は2つのストリームの最適化のダイナミクスを分離し、Pre-NormとPost-Normの両方の特徴を維持している。
- 参考スコア(独自算出の注目度): 31.43772956034752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Transformers predominantly adopt the Pre-Norm paradigm for its optimization stability, foregoing the superior potential of the unstable Post-Norm architecture. Prior attempts to combine their strengths typically lead to a stability-performance trade-off. We attribute this phenomenon to a structural incompatibility within a single-stream design: Any application of the Post-Norm operation inevitably obstructs the clean identity gradient preserved by Pre-Norm. To fundamentally reconcile these paradigms, we propose SiameseNorm, a two-stream architecture that couples Pre-Norm-like and Post-Norm-like streams with shared parameters. This design decouples the optimization dynamics of the two streams, retaining the distinct characteristics of both Pre-Norm and Post-Norm by enabling all residual blocks to receive combined gradients inherited from both paradigms, where one stream secures stability while the other enhances expressivity. Extensive pre-training experiments on 1.3B-parameter models demonstrate that SiameseNorm exhibits exceptional optimization robustness and consistently outperforms strong baselines. Code is available at https://github.com/Qwen-Applications/SiameseNorm.
- Abstract(参考訳): 現代のトランスフォーマーは主に最適化の安定性のためにプレノームパラダイムを採用しており、不安定なポストノームアーキテクチャの優れた可能性を予見している。
彼らの強みを組み合わせようとする以前の試みは、一般的に安定性とパフォーマンスのトレードオフにつながる。
我々は,この現象を単一ストリーム設計における構造的不整合性に帰着する: Post-Norm 操作の任意の適用は,Pre-Norm が保存したクリーンID勾配を必然的に阻害する。
これらのパラダイムを根本的に整合させるために、私たちは、Pre-Norm-likeとPost-Norm-likeストリームを共有パラメータで結合した2ストリームアーキテクチャであるSiameseNormを提案する。
この設計は、2つのストリームの最適化のダイナミクスを分離し、すべての残差ブロックが両方のパラダイムから継承された勾配を受信し、一方のストリームが安定性を確保し、他方が表現性を高めることによって、プレノームとポストノームの両方の特徴を保持します。
1.3Bパラメーターモデルの大規模な事前学習実験は、シームズノームが例外的な最適化の堅牢性を示し、強いベースラインを一貫して上回ることを示した。
コードはhttps://github.com/Qwen-Applications/SiameseNorm.comで入手できる。
関連論文リスト
- SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.87557024380553]
本稿では,Pre-NormとPost-Normの利点を統合した,シンプルかつ効果的なハイブリッド正規化戦略を提案する。
大規模トランスモデルの実験では、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-06T16:40:48Z) - Improving Transferability of Adversarial Examples via Bayesian Attacks [68.90574788107442]
敵の例は未知のディープニューラルネットワーク(DNN)への攻撃を可能にする
本稿では,ベイズ式をモデルパラメータとモデル入力の両方に組み込むことで,逆例の転送性を向上させる。
実験により,本手法がトランスファーベース攻撃における新たな最先端技術を実現することを示す。
論文 参考訳(メタデータ) (2023-07-21T03:43:07Z) - Nonparametric Generative Modeling with Conditional Sliced-Wasserstein
Flows [101.31862036510701]
SWF(Sliced-Wasserstein Flow)は、非パラメトリックな生成モデルに対する有望なアプローチであるが、その最適な生成品質と条件付きモデリング能力の欠如により広く採用されていない。
本研究では,SWF の簡易かつ効果的な拡張である条件付きスライス・ワッサースタインフロー (CSWF) を提案する。
論文 参考訳(メタデータ) (2023-05-03T14:55:43Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。