論文の概要: Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting
- arxiv url: http://arxiv.org/abs/2510.09152v1
- Date: Fri, 10 Oct 2025 08:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.50218
- Title: Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting
- Title(参考訳): Logits Replay + MoClip: 最小設定で安定した低コストのポストトレーニング
- Authors: Suming Qiu, Jing Li, Zhicheng Zhou, Junjie Huang, Linyuan Qiu, Zhijie Sun,
- Abstract要約: Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。
提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
- 参考スコア(独自算出の注目度): 6.653834890554154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) often face a trade-off in post-training: improvements on specialized domains frequently come at the expense of general capabilities. Existing solutions attempt to mitigate this tension via regularization, selective parameter updates, or data-centric replay, but each imposes significant costs in computation, data access, or adaptability. Recent work has shown that training signals can be compressed to subsets of logits without severe accuracy loss, suggesting a path toward efficient adaptation. However, naive truncation destabilizes optimization and exacerbates forgetting. We introduce Logits Replay + MoClip, a two-stage framework that compresses supervision in the logit space and stabilizes optimization at the update level. In Stage 0, we record dynamic Top-K token subsets that cover a probability threshold, always including the gold label. In Stage 1, we replay these compact subsets to compute exact renormalized losses, avoiding full softmax computation and implicitly regularizing. To ensure stability, we design MoClip, an optimizer that caps gradient-momentum rotation and applies an arctan2-based rescaling of updates. Empirically, our method improves domain performance on Communication Technology (CT) and NL2SQL tasks while mitigating forgetting on general benchmarks (MMLU, BBH, GPQA, MATH), and reduces training cost by over 40%. Together, these contributions offer a scalable, architecture-agnostic path for domain adaptation of LLMs without sacrificing generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練後のトレードオフに直面することが多い。
既存のソリューションは、正規化、選択パラメータ更新、データ中心のリプレイを通じて、この緊張を緩和しようとするが、それぞれが計算、データアクセス、適応性に多大なコストを課す。
近年の研究では、高精度な精度の損失を伴わずに、トレーニング信号をロジットのサブセットに圧縮できることが示されており、効率的な適応への道のりが示唆されている。
しかし、ナイーブ・トランケーションは最適化を不安定にし、忘れを悪化させる。
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化する2段階フレームワークである。
ステージ0では、常にゴールドラベルを含む確率閾値をカバーする動的Top-Kトークンのサブセットを記録します。
ステージ1では、これらのコンパクトなサブセットを再生して正確な再正規化損失を計算し、完全なソフトマックス計算を回避し、暗黙的に正規化する。
安定性を確保するために、勾配-モーメント回転をカプセル化し、arctan2ベースの更新再スケーリングを適用する最適化器であるMoClipを設計する。
提案手法は,一般的なベンチマーク (MMLU, BBH, GPQA, MATH) での忘れを軽減しつつ, 通信技術(CT) と NL2SQL タスクのドメイン性能を向上し, トレーニングコストを40%以上削減する。
これらの貢献は、一般化を犠牲にすることなく、LLMのドメイン適応のためのスケーラブルでアーキテクチャに依存しないパスを提供する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Forget Forgetting: Continual Learning in a World of Abundant Memory [55.64184779530581]
継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。
本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。
モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
論文 参考訳(メタデータ) (2025-02-11T05:40:52Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning [20.74016978787039]
低ランク部分空間内で完全な微調整を近似する手法を提案する。
我々は、LoRA-XSのアーキテクチャを活用し、高階勾配更新のための最適なスケーリングを実現する。
この結果から,低ランク部分空間における完全微調整のシミュレートが可能であることが判明した。
論文 参考訳(メタデータ) (2024-11-29T09:10:30Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。