論文の概要: One Step Learning, One Step Review
- arxiv url: http://arxiv.org/abs/2401.10962v1
- Date: Fri, 19 Jan 2024 11:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:41:58.912704
- Title: One Step Learning, One Step Review
- Title(参考訳): 1ステップの学習と1ステップのレビュー
- Authors: Xiaolong Huang, Qiankun Li, Xueran Li, Xuesong Gao
- Abstract要約: OLOR(One Step Learning, One Step Review)と呼ばれる軽量ロールバックに基づくファインチューニング手法を提案する。
本稿では,OLOR(One Step Learning, One Step Review)と呼ばれる,ウェイトロールバックに基づくファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 6.540346282603399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual fine-tuning has garnered significant attention with the rise of
pre-trained vision models. The current prevailing method, full fine-tuning,
suffers from the issue of knowledge forgetting as it focuses solely on fitting
the downstream training set. In this paper, we propose a novel weight
rollback-based fine-tuning method called OLOR (One step Learning, One step
Review). OLOR combines fine-tuning with optimizers, incorporating a weight
rollback term into the weight update term at each step. This ensures
consistency in the weight range of upstream and downstream models, effectively
mitigating knowledge forgetting and enhancing fine-tuning performance. In
addition, a layer-wise penalty is presented to employ penalty decay and the
diversified decay rate to adjust the weight rollback levels of layers for
adapting varying downstream tasks. Through extensive experiments on various
tasks such as image classification, object detection, semantic segmentation,
and instance segmentation, we demonstrate the general applicability and
state-of-the-art performance of our proposed OLOR. Code is available at
https://github.com/rainbow-xiao/OLOR-AAAI-2024.
- Abstract(参考訳): 視覚の微調整は、事前訓練された視覚モデルの台頭によって大きな注目を集めている。
現在普及しているフル微調整法は、下流トレーニングセットの適合に重点を置いているため、知識を忘れてしまうという問題に悩まされている。
本稿では,OLOR(One Step Learning, One Step Review)と呼ばれる,ウェイトロールバックに基づくファインチューニング手法を提案する。
OLORは微調整とオプティマイザを組み合わせることで、各ステップの重み更新項にウェイトロールバック項を組み込む。
これにより、上流モデルと下流モデルの重量範囲の一貫性が確保され、知識を効果的に忘れ、微調整性能が向上する。
また,各層毎のペナルティがペナルティの減衰と多様化した減衰率を採用し,各層の重みロールバックレベルを調整し,下流タスクに適応させる。
画像分類やオブジェクト検出,セマンティックセグメンテーション,インスタンスセグメンテーションといった様々なタスクに関する広範な実験を通じて,提案するOLORの汎用性と最先端性能を実証した。
コードはhttps://github.com/rainbow-xiao/OLOR-AAAI-2024で公開されている。
関連論文リスト
- TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。
コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。
非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文 参考訳(メタデータ) (2024-10-31T14:25:55Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion [0.0]
本稿では,適応抑制・分散促進(CLASSP)による継続学習という新しい学習手法を提案する。
CLASSPは神経科学、特にシナプス伝達と長期増強の文脈で観察される2つの主要な原理に基づいている。
Elastic Weight Consolidation (EWC)データセットと比較すると、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-29T13:31:00Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。