論文の概要: Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2511.18670v1
- Date: Mon, 24 Nov 2025 00:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.960493
- Title: Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers
- Title(参考訳): 決定論的連続置換:事前学習変圧器における高速かつ安定なモジュール置換
- Authors: Rowan Bradbury, Aniket Srinivasan Ashok, Sai Ram Kasanagottu, Gunmay Jhingran, Shuai Meng,
- Abstract要約: 冷間開始再活性化は凍結した背骨を安定化させるが、制御された研究でこのコア安定性の課題を分離する。
単座研究において、DCRは、制御された注意置換に基づくゲーティングや蒸留ベースラインよりも早く収束し、より強いアライメントを得ることができ、不均一なオペレータスワップの基礎を確立した。
- 参考スコア(独自算出の注目度): 0.7829352305480287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replacing modules in pretrained models, especially swapping quadratic self-attention for efficient attention alternatives, poses a hard optimization problem: cold-start reinitialization destabilizes frozen backbones. We isolate this core stability challenge in a controlled study. Deterministic Continuous Replacement (DCR) blends teacher and student outputs with a deterministic, annealed weight. Theoretically, DCR eliminates gate-induced gradient variance inherent to stochastic replacement. In a single-seed study, DCR attains faster convergence and stronger alignment than stochastic gating and distillation baselines on controlled attention replacement, establishing a foundation for heterogeneous operator swaps.
- Abstract(参考訳): 事前訓練されたモデルにおけるモジュールのリプレース、特に2次自己アテンションを効率的な注意代替品に置き換えることにより、ハード最適化の問題が発生する。
制御された研究において、このコア安定性の課題を分離する。
決定論的連続置換 (Deterministic Continuous Replacement, DCR) は、教師と学生の出力を決定論的、熱処理した重量で混合する。
理論的には、DCRは確率的置換に固有のゲート誘起勾配のばらつきを排除している。
単座研究において、DCRは、制御された注意置換に対する確率的ゲーティングや蒸留ベースラインよりも早く収束し、より強いアライメントを得ることができ、不均一なオペレータスワップの基礎を確立した。
関連論文リスト
- CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness [14.01813573738112]
CASRは単純だが高効率な環状SRフレームワークであり、超磁化を非分布スケール遷移の列として再構成する。
この設計は、任意のスケールで安定な推論を保証し、単一のモデルしか必要としない。
単一モデルのみを用いながら, 分布のドリフトを著しく低減し, 長距離テクスチャの整合性を保ち, 極端倍率でも優れた一般化を実現する。
論文 参考訳(メタデータ) (2026-02-25T18:05:51Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Reasoning Stabilization Point: A Training-Time Signal for Stable Evidence and Shortcut Reliance [0.0]
我々は、固定されたプローブ集合上の正規化トークン属性におけるエポック・ツー・エポックな変化として説明ドリフトを定義する。
RSPは内部のドリフトダイナミクスから計算され、アウト・オブ・ディストリビューションデータのチューニングは不要である。
論文 参考訳(メタデータ) (2026-01-12T17:48:05Z) - Measurement-Consistent Langevin Corrector: A Remedy for Latent Diffusion Inverse Solvers [24.18139511731393]
遅延拡散逆解法は不安定性に悩まされ、望ましくないアーティファクトと劣化した品質を示す。
我々は,理論上は接地されたプラグ・アンド・プレイ補正モジュールであるMCLC(Messistent Langevin Corrector)を導入する。
従来の手法と比較して、MCLCはこの仮定なしで動作し、より安定で信頼性の高い振る舞いをもたらす。
論文 参考訳(メタデータ) (2026-01-08T10:15:35Z) - GB-DQN: Gradient Boosted DQN Models for Non-stationary Reinforcement Learning [0.0]
逐次残差学習によるモデルドリフトに対応する適応型アンサンブル法であるemphGradient-Boosted Deep Q-Networks (GB-DQN)を提案する。
GB-DQNは、単一のQ-ネットワークを再訓練する代わりに、新たな学習者がドリフト後の現在のアンサンブルのベルマン残差を近似するように訓練された付加的なアンサンブルを構築する。
論文 参考訳(メタデータ) (2025-12-18T19:53:50Z) - Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield [54.328202401611264]
拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
数段蒸留の原動力は分布一致ではなく,これまで見過ごされていた成分であるCFG増量 (CFG Augmentation, CA) であることを示す。
本稿では, エンジンとレギュレータのノイズスケジュールを分離するなど, 蒸留工程の原理的な修正を提案し, 更なる性能向上を実現した。
論文 参考訳(メタデータ) (2025-11-27T18:24:28Z) - CREPE: Controlling Diffusion with Replica Exchange [32.38925001748167]
拡散モデルの推論時間制御は、モデル出力を操り、再学習せずに新しい制約を満たすことを目的としている。
レプリカ交換に基づくフレキシブルな代替案を提案する。
CREPE:(1) 粒子を逐次生成し,(2) 燃焼後の試料の多様性を高く維持し,(3) オンライン精製や早期終了を可能にする。
論文 参考訳(メタデータ) (2025-09-27T11:45:37Z) - Metriplectic Conditional Flow Matching for Dissipative Dynamics [5.920407670799846]
条件付きフローマッチングは 第一原理に違反することなく 散逸力学を学習する
MCFMは短いトランジションで条件付きフローマッチングを通し、長いロールアウトの隣り合わせを避ける。
我々は、このパラメータ化とサンプリングを保存、単調散逸、安定したロールアウトにリンクする連続的かつ離散的な時間保証を提供する。
論文 参考訳(メタデータ) (2025-09-23T19:46:54Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers [5.187307904567701]
正規化レイヤを使わずにトレーニングを安定化する等級保存設計を提案する。
活性化マグニチュードを維持するという目標により、回転変調も導入する。
また,FIDスコアを$sim$12.8%削減した。
論文 参考訳(メタデータ) (2025-05-25T12:25:50Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Adaptive Gradient Clipping for Robust Federated Learning [8.268485501864939]
本稿では,適応型クリッピング戦略である適応ロバストクリッピング(ARC)を提案し,入力勾配に基づいて動的にクリッピング閾値を調整する。
ARCは、特に高度に異質で対向的な設定において、ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:00:31Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。