論文の概要: Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining
- arxiv url: http://arxiv.org/abs/2605.20296v1
- Date: Tue, 19 May 2026 11:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.279817
- Title: Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining
- Title(参考訳): スペクトラルアンフォーゲッティング:リトレーニングなしで損傷した能力のポストホック回復
- Authors: Aarash Abro, Muhammad Tahir,
- Abstract要約: ターゲットタスクの言語モデルを微調整することで、トレーニングデータが明示的に脅威に曝されることのないように、定期的に機能を低下させる。
我々は、事前訓練されたチェックポイント$W_mathrmbase$とその微調整された子孫$W_mathrmft$のみを使用するポストホック修復ソリューションを提案する。
DG-Hardは、細調整更新$= W_mathrmft - W_mathrmbase$に対するチェックポイントのみのスペクトル補修法である。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a language model for a target task routinely degrades capabilities the training data never explicitly threatened. We study this phenomenon, known as catastrophic forgetting, and propose a post-hoc repair solution that uses only the pretrained checkpoint $W_{\mathrm{base}}$ and its fine-tuned descendant $W_{\mathrm{ft}}$. The goal is not merely to revert the model toward the base checkpoint, but to recover capabilities damaged by fine-tuning while preserving both the target-task gains and any beneficial held-out improvements. We introduce DG-Hard, a checkpoint-only spectral repair method for the fine-tuning update $Δ= W_{\mathrm{ft}} - W_{\mathrm{base}}$. DG-Hard treats $Δ$ as a low-rank task-aligned signal embedded in an IID-like noise residual that gradient descent has no incentive to remove, and applies the Donoho-Gavish hard singular-value threshold to each weight-delta matrix, keeping the structured high-energy part of the update and removing the spectral bulk. This reduces repair to a closed-form SVD filtering step requiring no data-dependent tuning. A central difficulty is evaluation: average accuracy hides per-benchmark failures, while naive recovery scores reward models that simply revert toward the base. We therefore introduce a partition-conditional metric that separately tracks healing, preservation, non-damage, and target-task retention. Across $14$ (model, task) settings and nine cross-domain held-out benchmarks, DG-Hard achieves the strongest balanced repair among post-hoc baselines. DG-Hard also restores safety alignment degraded by benign fine-tuning on three independent safety axes, despite using no alignment data. These results suggest that part of fine-tuning-induced capability loss is not an unavoidable consequence of specialization, but a removable spectral residue in the weight update itself.
- Abstract(参考訳): ターゲットタスクの言語モデルを微調整することで、トレーニングデータが明示的に脅威に曝されることのないように、定期的に機能を低下させる。
破滅的な忘れ方として知られるこの現象を研究し、事前訓練されたチェックポイント$W_{\mathrm{base}}$とその微調整された子孫$W_{\mathrm{ft}}$のみを使用するポストホック修復ソリューションを提案する。
目標は、モデルをベースチェックポイントに戻すことではなく、ターゲットタスクのゲインと有益なホールトアウトの改善の両方を維持しながら、微調整によって損傷した能力を回復することである。
DG-Hardは、細調整更新$Δ= W_{\mathrm{ft}} - W_{\mathrm{base}}$に対するチェックポイントのみのスペクトル補修法である。
DG-Hardは、IIDのようなノイズ残差に埋め込まれた低ランクのタスク整列信号として$Δ$を扱い、勾配降下が除去するインセンティブがなく、ドノホ・ガヴィッシュのハード特異値閾値を各重量差行列に適用し、更新の高エネルギー部分を維持し、スペクトルバルクを除去する。
これにより、データ依存チューニングを必要としないクローズドフォームのSVDフィルタリングステップへの修正が削減される。
平均精度はベンチマーク毎の失敗を隠蔽し、単純回復は単にベースに逆戻りする報酬モデルを取得する。
そこで我々は,修復,保存,非損傷,標的タスク保持を別々に追跡する分割条件メトリクスを導入した。
14ドルの(モデル、タスク)設定と9つのクロスドメインホールトアウトベンチマークで、DG-Hardはポストホックベースラインの中で最もバランスの取れた修復を実現している。
DG-Hardはまた、3つの独立した安全軸を微調整することで、アライメントデータを使用しなくても、安全性のアライメントを回復する。
これらの結果から,微調整による機能損失の一部は特殊化の避けられない結果ではなく,重量更新自体の除去可能なスペクトル残基であることが示唆された。
関連論文リスト
- Exactness Matters for Physical Rule Enforcement [4.230349220081444]
より強い物理ルールの執行がいつ信頼できるか、いつそれが流通シフトの源となるかは、まだ不明である。
この問題は作用素の正確性(すなわち、補修写像が対象多様体上の恒等写像であるかどうか)を通して研究する。
制御ミスマッチ、スクリーニングされたクリーンアップ、アダプティブゲーティング、および外部バックボーンチェックは、最適な近似登録操作ポイントが生またはほぼ同一であることを示す。
論文 参考訳(メタデータ) (2026-05-08T07:59:59Z) - DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment [3.5885872325877926]
本稿では,新たな批判的自由強化学習フレームワークである配流誘導政策最適化について紹介する。
我々は、DGPOが、批判のないアライメントのために、新たな最先端を設定できることを示します。特に、DGPOは、挑戦的なAIME2024とAIME2025ベンチマークで、60.0% Avg@32の精度と46.4% Avg@32の精度をそれぞれ達成します。
論文 参考訳(メタデータ) (2026-05-05T03:36:27Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Byzantine-Robust Learning on Heterogeneous Data via Gradient Splitting [58.91947205027892]
フェデレーテッド・ラーニングはビザンツの攻撃に対する脆弱性を示している。
ビザンティン攻撃者は、任意の勾配を中央サーバに送ることで、グローバルモデルの収束と性能を破壊することができる。
アグレゲーション・ルール(AGR)は、ビザンツの攻撃から守るために提案されている。
論文 参考訳(メタデータ) (2023-02-13T03:31:50Z) - Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a
Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。
本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。
本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文 参考訳(メタデータ) (2022-09-29T13:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。