論文の概要: Policy Gradient with Adaptive Entropy Annealing for Continual Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.14078v1
- Date: Sun, 15 Feb 2026 10:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.641853
- Title: Policy Gradient with Adaptive Entropy Annealing for Continual Fine-Tuning
- Title(参考訳): 適応エントロピーアニールを用いた連続微調整のための政策グラディエント
- Authors: Yaqian Zhang, Bernhard Pfahringer, Eibe Frank, Albert Bifet,
- Abstract要約: 本研究では,探索的(CEライクな)から搾取的(EPGライクな)学習に移行する訓練戦略を提案する。
様々なエントロピー正規化手法を評価し、出力予測分布の低いエントロピーが事前学習された視覚モデルにおける適応を促進することを示す。
- 参考スコア(独自算出の注目度): 18.440289150575648
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite their success, large pretrained vision models remain vulnerable to catastrophic forgetting when adapted to new tasks in class-incremental settings. Parameter-efficient fine-tuning (PEFT) alleviates this by restricting trainable parameters, yet most approaches still rely on cross-entropy (CE) loss, a surrogate for the 0-1 loss, to learn from new data. We revisit this choice and revive the true objective (0-1 loss) through a reinforcement learning perspective. By formulating classification as a one-step Markov Decision Process, we derive an Expected Policy Gradient (EPG) method that directly minimizes misclassification error with a low-variance gradient estimation. Our analysis shows that CE can be interpreted as EPG with an additional sample-weighting mechanism: CE encourages exploration by emphasizing low-confidence samples, while EPG prioritizes high-confidence ones. Building on this insight, we propose adaptive entropy annealing (aEPG), a training strategy that transitions from exploratory (CE-like) to exploitative (EPG-like) learning. aEPG-based methods outperform CE-based methods across diverse benchmarks and with various PEFT modules. More broadly, we evaluate various entropy regularization methods and demonstrate that lower entropy of the output prediction distribution enhances adaptation in pretrained vision models.
- Abstract(参考訳): 彼らの成功にもかかわらず、大規模な事前訓練された視覚モデルは、クラスインクリメンタルな設定で新しいタスクに適応する場合、破滅的な忘れ方に弱いままである。
パラメータ効率のよい微調整(PEFT)は、トレーニング可能なパラメータを制限することでこれを緩和するが、ほとんどのアプローチは、新しいデータから学ぶために、0-1損失の代理であるクロスエントロピー(CE)損失に依存している。
我々はこの選択を再考し、強化学習の観点から真の目標(0-1損失)を復活させる。
1段階のマルコフ決定過程として分類を定式化することにより、低分散勾配推定による誤分類誤差を直接最小化する期待されたポリシー勾配(EPG)法を導出する。
CEは低信頼度標本を強調することにより探索を奨励し,ERGは高信頼度標本を優先する。
この知見に基づいて、我々は、探索的(CEライク)から搾取的(EPGライク)学習に移行する訓練戦略である適応的エントロピーアニール(aEPG)を提案する。
aEPGベースのメソッドは、様々なベンチマークと様々なPEFTモジュールでCEベースのメソッドより優れている。
より広範に、様々なエントロピー正規化手法を評価し、出力予測分布の低いエントロピーが事前学習された視覚モデルにおける適応を促進することを示す。
関連論文リスト
- CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning [28.02073546326571]
政策エントロピーは、訓練中の探検と搾取のバランスを反映している。
既存の方法は、クリッピング機構により、低確率トークンから貴重な勾配信号を捨てる。
textbfGradient textbfPreserving textbfPolicy textbfOptimization を用いて textbfCoordinating textbfEntropy を提案する。
論文 参考訳(メタデータ) (2025-09-25T03:22:04Z) - Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models [52.8949080772873]
本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。
最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
論文 参考訳(メタデータ) (2025-03-17T07:08:47Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。