論文の概要: Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization
- arxiv url: http://arxiv.org/abs/2606.00132v1
- Date: Thu, 28 May 2026 21:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.991245
- Title: Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization
- Title(参考訳): 一般化Rayleigh-Quotient最適化によるファンデーション保存適応
- Authors: Dongjun Kim, Adrian de Wynter, Huancheng Chen, Heasung Kim, Haris Vikalo,
- Abstract要約: 本稿では,忘れがちな最適化フレームワークであるFoLoRA(Foundation Preserving LoRA)を提案する。
FoLoRAは、プレトレーニングプロキシアクティベーションよりも忘れるペナルティと、下流タスクアクティベーションよりもタスクユーティリティを定義している。
数学、コード、命令の順応による実験は、FoLoRAがベースラインよりも強い保存適応バランスを達成していることを示している。
- 参考スコア(独自算出の注目度): 36.95831224411691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While finetuning effectively adapts foundation models to specialized downstream tasks, it can degrade nontarget capabilities acquired during pretraining. Existing forgetting aware methods typically seek safer updates through specialized initialization or fixed constraints, but do not regulate the adaptation preservation trade-off during training. We propose Foundation Preserving LoRA (FoLoRA), a forgetting aware optimization framework. Guided by a first order preservation condition, FoLoRA defines a forgetting penalty over pretraining-proxy activations and a task utility over downstream task activations. It then scores update directions by task utility per unit forgetting penalty via a generalized Rayleigh quotient. The resulting spectral coordinate system enables direction wise gated Adam updates, attenuating low utility to penalty directions during training. To estimate the forgetting penalty, FoLoRA constructs pretraining proxy calibration data by sampling from the pretrained model rather than relying on a single proxy dataset. Experiments on math, code, and instruction following adaptation show that FoLoRA achieves the strongest preservation adaptation balance over baselines, improving target task performance with best aggregate preservation of non target capabilities.
- Abstract(参考訳): ファインタニングは、基礎モデルを特定の下流タスクに効果的に適応させるが、事前訓練中に取得した非ターゲット能力を劣化させることができる。
既存の意識的手法を忘れることは、通常、特別な初期化や一定の制約によってより安全な更新を求めるが、訓練中の適応保存トレードオフを規制しない。
本稿では,忘れがちな最適化フレームワークであるFoLoRA(Foundation Preserving LoRA)を提案する。
ファーストオーダー保存条件によって導かれるFoLoRAは、プレトレーニング-プロキシアクティベーションと下流タスクアクティベーション上のタスクユーティリティを忘れるペナルティを定義する。
その後、一般のRayleighクォージェントを通じてペナルティを忘れるユニット毎のタスクユーティリティによって更新方向をスコア付けする。
結果として得られるスペクトル座標系は、訓練中に低効能をペナルティ方向へ減少させる、方向対応のアダム更新を可能にする。
忘れるペナルティを見積もるために、FoLoRAは、単一のプロキシデータセットに頼るのではなく、事前訓練されたモデルからサンプリングすることで、プロキシキャリブレーションデータの事前トレーニングを構築する。
算数,コード,命令の順応による実験により,FoLoRAはベースライン上で最強の保存適応バランスを達成し,非目標能力のベストアグリゲーション保存による目標タスク性能の向上を図った。
関連論文リスト
- Mask the Target: A Plug-and-Play Regularizer Against LoRA Forgetting [28.32780832670352]
Low-Rank Adaptation (LoRA)は、大規模言語モデルに適応するための最も広く使われている微調整機構の1つである。
適応分布がモデルのオリジナルのトレーニングやアライメントの分布と大きく異なる場合,この考え方は特に深刻なものとなる。
この制約に触発されて、我々はLoRAベースの適応が、リプレイフリー環境で忘れることに対する新しい学習のバランスをいかに改善するかを考察した。
論文 参考訳(メタデータ) (2026-05-28T07:22:39Z) - Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training [1.1960178399478718]
このフレームワークは、固定されたルールベースのハイレベルアドバイザと、オンラインのゴール条件付き低レベル強化学習コントローラを組み合わせる。
バッテリー対応マルチゴールデリバリと障害物の多い環境における移動目標デリバリの2つの課題について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-04-29T16:01:22Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining [34.93043212352875]
TapWeightはタスク適応型事前学習フレームワークで、各事前学習対象の最適な重要性を自動的に決定する。
我々はTapWeightを分子特性予測と自然言語理解タスクの両方に適用し,ベースライン法をはるかに上回った。
論文 参考訳(メタデータ) (2024-10-13T20:56:13Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-20T06:02:12Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。