論文の概要: One Step Learning, One Step Review
- arxiv url: http://arxiv.org/abs/2401.10962v1
- Date: Fri, 19 Jan 2024 11:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:41:58.912704
- Title: One Step Learning, One Step Review
- Title(参考訳): 1ステップの学習と1ステップのレビュー
- Authors: Xiaolong Huang, Qiankun Li, Xueran Li, Xuesong Gao
- Abstract要約: OLOR(One Step Learning, One Step Review)と呼ばれる軽量ロールバックに基づくファインチューニング手法を提案する。
本稿では,OLOR(One Step Learning, One Step Review)と呼ばれる,ウェイトロールバックに基づくファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 6.540346282603399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual fine-tuning has garnered significant attention with the rise of
pre-trained vision models. The current prevailing method, full fine-tuning,
suffers from the issue of knowledge forgetting as it focuses solely on fitting
the downstream training set. In this paper, we propose a novel weight
rollback-based fine-tuning method called OLOR (One step Learning, One step
Review). OLOR combines fine-tuning with optimizers, incorporating a weight
rollback term into the weight update term at each step. This ensures
consistency in the weight range of upstream and downstream models, effectively
mitigating knowledge forgetting and enhancing fine-tuning performance. In
addition, a layer-wise penalty is presented to employ penalty decay and the
diversified decay rate to adjust the weight rollback levels of layers for
adapting varying downstream tasks. Through extensive experiments on various
tasks such as image classification, object detection, semantic segmentation,
and instance segmentation, we demonstrate the general applicability and
state-of-the-art performance of our proposed OLOR. Code is available at
https://github.com/rainbow-xiao/OLOR-AAAI-2024.
- Abstract(参考訳): 視覚の微調整は、事前訓練された視覚モデルの台頭によって大きな注目を集めている。
現在普及しているフル微調整法は、下流トレーニングセットの適合に重点を置いているため、知識を忘れてしまうという問題に悩まされている。
本稿では,OLOR(One Step Learning, One Step Review)と呼ばれる,ウェイトロールバックに基づくファインチューニング手法を提案する。
OLORは微調整とオプティマイザを組み合わせることで、各ステップの重み更新項にウェイトロールバック項を組み込む。
これにより、上流モデルと下流モデルの重量範囲の一貫性が確保され、知識を効果的に忘れ、微調整性能が向上する。
また,各層毎のペナルティがペナルティの減衰と多様化した減衰率を採用し,各層の重みロールバックレベルを調整し,下流タスクに適応させる。
画像分類やオブジェクト検出,セマンティックセグメンテーション,インスタンスセグメンテーションといった様々なタスクに関する広範な実験を通じて,提案するOLORの汎用性と最先端性能を実証した。
コードはhttps://github.com/rainbow-xiao/OLOR-AAAI-2024で公開されている。
関連論文リスト
- PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - Class-incremental Learning with Rectified Feature-Graph Preservation [24.098892115785066]
本論文の中心的なテーマは,逐次的な段階を経る新しいクラスを学習することである。
旧知識保存のための重み付きユークリッド正規化を提案する。
新しいクラスを効果的に学習するために、クラス分離を増やすためにバイナリクロスエントロピーでどのように機能するかを示す。
論文 参考訳(メタデータ) (2020-12-15T07:26:04Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。