論文の概要: Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2511.18670v1
- Date: Mon, 24 Nov 2025 00:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.960493
- Title: Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers
- Title(参考訳): 決定論的連続置換:事前学習変圧器における高速かつ安定なモジュール置換
- Authors: Rowan Bradbury, Aniket Srinivasan Ashok, Sai Ram Kasanagottu, Gunmay Jhingran, Shuai Meng,
- Abstract要約: 冷間開始再活性化は凍結した背骨を安定化させるが、制御された研究でこのコア安定性の課題を分離する。
単座研究において、DCRは、制御された注意置換に基づくゲーティングや蒸留ベースラインよりも早く収束し、より強いアライメントを得ることができ、不均一なオペレータスワップの基礎を確立した。
- 参考スコア(独自算出の注目度): 0.7829352305480287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replacing modules in pretrained models, especially swapping quadratic self-attention for efficient attention alternatives, poses a hard optimization problem: cold-start reinitialization destabilizes frozen backbones. We isolate this core stability challenge in a controlled study. Deterministic Continuous Replacement (DCR) blends teacher and student outputs with a deterministic, annealed weight. Theoretically, DCR eliminates gate-induced gradient variance inherent to stochastic replacement. In a single-seed study, DCR attains faster convergence and stronger alignment than stochastic gating and distillation baselines on controlled attention replacement, establishing a foundation for heterogeneous operator swaps.
- Abstract(参考訳): 事前訓練されたモデルにおけるモジュールのリプレース、特に2次自己アテンションを効率的な注意代替品に置き換えることにより、ハード最適化の問題が発生する。
制御された研究において、このコア安定性の課題を分離する。
決定論的連続置換 (Deterministic Continuous Replacement, DCR) は、教師と学生の出力を決定論的、熱処理した重量で混合する。
理論的には、DCRは確率的置換に固有のゲート誘起勾配のばらつきを排除している。
単座研究において、DCRは、制御された注意置換に対する確率的ゲーティングや蒸留ベースラインよりも早く収束し、より強いアライメントを得ることができ、不均一なオペレータスワップの基礎を確立した。
関連論文リスト
- CREPE: Controlling Diffusion with Replica Exchange [32.38925001748167]
拡散モデルの推論時間制御は、モデル出力を操り、再学習せずに新しい制約を満たすことを目的としている。
レプリカ交換に基づくフレキシブルな代替案を提案する。
CREPE:(1) 粒子を逐次生成し,(2) 燃焼後の試料の多様性を高く維持し,(3) オンライン精製や早期終了を可能にする。
論文 参考訳(メタデータ) (2025-09-27T11:45:37Z) - Metriplectic Conditional Flow Matching for Dissipative Dynamics [5.920407670799846]
条件付きフローマッチングは 第一原理に違反することなく 散逸力学を学習する
MCFMは短いトランジションで条件付きフローマッチングを通し、長いロールアウトの隣り合わせを避ける。
我々は、このパラメータ化とサンプリングを保存、単調散逸、安定したロールアウトにリンクする連続的かつ離散的な時間保証を提供する。
論文 参考訳(メタデータ) (2025-09-23T19:46:54Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers [5.187307904567701]
正規化レイヤを使わずにトレーニングを安定化する等級保存設計を提案する。
活性化マグニチュードを維持するという目標により、回転変調も導入する。
また,FIDスコアを$sim$12.8%削減した。
論文 参考訳(メタデータ) (2025-05-25T12:25:50Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Adaptive Gradient Clipping for Robust Federated Learning [8.268485501864939]
本稿では,適応型クリッピング戦略である適応ロバストクリッピング(ARC)を提案し,入力勾配に基づいて動的にクリッピング閾値を調整する。
ARCは、特に高度に異質で対向的な設定において、ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:00:31Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。