論文の概要: Rotation-Preserving Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.10973v1
- Date: Fri, 08 May 2026 20:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.269875
- Title: Rotation-Preserving Supervised Fine-Tuning
- Title(参考訳): 回転保存型微細調整
- Authors: Hangzhan Jin, Tianwei Ni, Lu Li, Pierre-Luc Bacon, Mohammad Hamdaqa, Doina Precup,
- Abstract要約: Supervised Fine-tuning (SFT) はドメイン内のパフォーマンスを改善するが、ドメイン外の一般化を分解することができる。
本稿では,魚の感覚方向の効率的なプロキシとして,事前訓練された特異部分空間における投影回転を保存することを提案する。
RPSFTは、各事前訓練された重み行列の投影された最高値の特異ベクトルブロックの変化を罰し、タスク適応を保ちながら不要な回転を制限する。
- 参考スコア(独自算出の注目度): 39.442074320811585
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Supervised fine-tuning (SFT) improves in-domain performance but can degrade out-of-domain (OOD) generalization. Prior work suggests that this degradation is related to changes in dominant singular subspaces of pretrained weight matrices. However, directly identifying loss-sensitive directions with Hessian or Fisher information is computationally expensive at LLM scale. In this work, we propose preserving projected rotations in pretrained singular subspaces as an efficient proxy for Fisher-sensitive directions, which we call Rotation-Preserving Supervised Fine-Tuning (RPSFT). RPSFT penalizes changes in the projected top-$k$ singular-vector block of each pretrained weight matrix, limiting unnecessary rotation while preserving task adaptation. Across model families and sizes trained on math reasoning data, RPSFT improves the in-domain/OOD trade-off over standard SFT and strong SFT baselines, better preserves pretrained representations, and provides stronger initializations for downstream RL fine-tuning. Code is available at \href{https://github.com/jinhangzhan/RPSFT.git}{https://github.com/jinhangzhan/RPSFT}.
- Abstract(参考訳): Supervised Fine-tuning (SFT) はドメイン内のパフォーマンスを向上するが、外部ドメイン(OOD)の一般化を低下させることができる。
以前の研究は、この分解が事前訓練された重み行列の支配的な特異部分空間の変化と関連していることを示唆している。
しかし、ロスセンシティブな方向をHessianまたはFisher情報で直接識別することは、LLMスケールで計算的に高価である。
そこで本研究では,魚の捕食方向の効率的なプロキシとして,事前訓練された特異部分空間における投影された回転を保存することを提案し,これを回転保存スーパーバイザード・ファインタニング(RPSFT)と呼ぶ。
RPSFTは、各事前訓練された重み行列の投影された最高値の特異ベクトルブロックの変化を罰し、タスク適応を保ちながら不要な回転を制限する。
RPSFTは、数学推論データに基づいて訓練されたモデルファミリーとサイズにわたって、標準SFTと強力なSFTベースラインとのドメイン内/OODトレードオフを改善し、事前訓練された表現をより良く保存し、下流RL微調整のためのより強力な初期化を提供する。
コードは \href{https://github.com/jinhangzhan/RPSFT.git}{https://github.com/jinhangzhan/RPSFT} で公開されている。
関連論文リスト
- Weak-SIGReg: Covariance Regularization for Stable Deep Learning [0.0]
この研究は、最近LeJEPAの自己教師型フレームワークで導入されたSketched Isotropic Gaussian Regularization (SIGReg)を採用し、教師付き学習のための一般的な最適化安定化器として再利用している。
SIGRegは表現密度を等方性ガウスに対して制限し、このドリフトを緩和する。
SIGRegはアーキテクチャハックなしで20.73%から72.02%の精度でCIFAR-100上でのViTトレーニングを回復し、純粋なSGDでトレーニングされた深いバニラの収束を大幅に改善する。
論文 参考訳(メタデータ) (2026-03-06T05:32:40Z) - GRIT -- Geometry-Aware PEFT with K-FACPreconditioning, Fisher-Guided Reprojection, andDynamic Rank Adaptation [4.748720471060117]
GRITは、LoRAパラメータ化を保存する曲率対応のLoRAプロシージャである。
トレーニング可能なパラメータを平均で46%削減しながら、LoRAとQLoRAにマッチまたは超越する。
GRITは強力なPEFT最適化器ベースラインよりも低いドリフトと更新vs保持フロンティアが得られる。
論文 参考訳(メタデータ) (2026-01-01T06:31:54Z) - Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers [27.14203097630326]
本稿では、遅延空間遷移演算子を導入し、ドリフト補償を用いた逐次学習を提案する。
SLDCは、ドリフトの影響を軽減するために、タスク間で機能の分散を調整することを目的としている。
標準CILベンチマークの実験では、SLDCはSeqFTの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-11-13T03:40:54Z) - ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。
本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文 参考訳(メタデータ) (2025-07-09T23:52:31Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。