Fugu-MT 論文翻訳(概要): Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair

論文の概要: Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair

arxiv url: http://arxiv.org/abs/2604.22407v1
Date: Fri, 24 Apr 2026 10:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.418737
Title: Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair
Title（参考訳）: 連続学習におけるアダムのグラディエント修正の隠れ破壊モードと修復のための適応的デカップリングモーメントルーティング
Authors: Yuelin Hu, Zhenbo Yu, Zhengxue Cheng, Wei Liu, Li Song,
Abstract要約: 多くの連続学習手法は、Adamを中立的なバックエンドとして扱いながら、上流の勾配を変更している。この構成には、隠れた障害モードがあることが示されます。我々の修正は、マグニチュードに富んだ第2モーメント統計を保ちながら、勾配を第1モーメントにのみルートする。
参考スコア（独自算出の注目度）: 21.974153439592317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many continual-learning methods modify gradients upstream (e.g., projection, penalty rescaling, replay mixing) while treating Adam as a neutral backend. We show this composition has a hidden failure mode. In a high-overlap, non-adaptive 8-domain continual LM, all shared-routing projection baselines collapse close to vanilla forgetting (12.5--12.8 vs. 13.2). A 0.5% replay buffer is the strongest shared alternative but still reaches 11.6, while fixed-strength decoupling falls below vanilla at 14.1. Only adaptive decoupled routing remains stable at 9.4, improving over vanilla by 3.8 units. On a 16-domain stream, its gain over the strongest shared-routing projection baseline grows to 4.5--4.8 units. The failure is largely invisible on clean benchmarks. We explain this effect through Adam's second-moment pathway: in the tested regime, projection induces a 1/(1-alpha) inflation of the old-direction effective learning rate, matching measurements within 8% across eight alpha values. The same conflict appears with penalty methods, replay mixing, and at 7B scale under LoRA. Our fix routes the modified gradient only to the first moment while preserving magnitude-faithful second-moment statistics, with overlap-aware adaptive strength. This simple change is the only tested configuration that consistently avoids collapse across methods, optimizers, and scale.
Abstract（参考訳）: 多くの継続的学習手法は、Adamを中立的なバックエンドとして扱いながら、上流の勾配(プロジェクション、ペナルティ・リスケーリング、リプレイ・ミックスなど)を変更する。この構成には、隠れた障害モードがあることが示されます。高いオーバーラップで非適応的な8ドメイン連続LMでは、すべての共有ルーティングプロジェクションベースラインがバニラの忘れ物(12.5--12.8 vs. 13.2)に近く崩壊する。 0.5%のリプレイバッファが最強の共有バッファであるが、11.6に到達し、固定強度のデカップリングは14.1でバニラより下降する。適応的な分離されたルーティングのみが9.4で安定しており、バニラよりも3.8ユニット改善されている。 16ドメインのストリームでは、最強の共有ルーティングプロジェクションベースラインを上回るゲインは4.5--4.8ユニットに増加する。クリーンなベンチマークでは、その失敗はほとんど見えません。この効果はアダムの第2モーメント経路によって説明される: 試験された状態において、射影は古い方向有効学習率の1/1アルファのインフレーションを誘導し、8つのアルファ値に対して8%の範囲で一致させる。同じ矛盾は、ペナルティ法、リプレイミキシング、そしてLoRAの7Bスケールで現れる。修正した勾配を第1モーメントのみにルートすると同時に,重み付き適応強度を有する第2モーメント統計を保存した。この単純な変更は、メソッド、オプティマイザ、スケールの崩壊を一貫して回避する唯一のテスト済み構成である。

関連論文リスト

Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。我々はこの幾何学を6つの方向決定戦略によって特徴づける。 AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文参考訳（メタデータ） (2026-04-20T23:02:37Z)
Low-Rank Adaptation Reduces Catastrophic Forgetting in Sequential Transformer Encoder Fine-Tuning: Controlled Empirical Evidence and Frozen-Backbone Representation Probes [3.305265383862785]
コンパニオン表現プローブを用いたシーケンシャルトランスフォーマーエンコーダにおけるローランド適応(LoRA)の実証的研究について述べる。 RTE->MRPC->CoLA->SST-2配列上の5つのフルバリデーションBERTベースでは、フル微調整の収率は19.9%+/-で、標準のLoRA(r、クエリ/バリューモジュール)は0.6%+/-1.4%である。
論文参考訳（メタデータ） (2026-03-29T14:14:36Z)
BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。両課題に対処する統合フレームワークであるBadCLIP++を提案する。ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文参考訳（メタデータ） (2026-02-19T08:31:16Z)
CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文参考訳（メタデータ） (2026-01-26T10:54:06Z)
CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。 CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文参考訳（メタデータ） (2025-12-22T16:34:21Z)
Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。 THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文参考訳（メタデータ） (2025-11-06T00:41:54Z)
AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文参考訳（メタデータ） (2025-02-16T08:13:23Z)
Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文参考訳（メタデータ） (2024-11-08T17:50:24Z)
Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
論文参考訳（メタデータ） (2023-04-25T17:38:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。