論文の概要: Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.12409v1
- Date: Sat, 14 Jun 2025 08:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.09907
- Title: Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models
- Title(参考訳): ブランチ, レイヤ? 視覚言語モデルの連続学習のためのゼロ階最適化
- Authors: Ziwei Liu, Borui Kang, Wei Li, Hangjie Yuan, Yanbing Yang, Wenbin Li, Jun Luo, Yifan Zhu, Tao Feng,
- Abstract要約: 本稿では、視覚言語連続学習(VLCL)のためのゼロ次最適化(ZO)の体系的探索を開拓する。
まず,VLCLにおけるNuive full-ZO導入の不適合性について検討した。
我々は、浅層と深層表現の不均一な学習力学を活かして、ZOとFOをネットワーク層にインターリーブする階層最適化パラダイムを開発した。
- 参考スコア(独自算出の注目度): 44.27801276966812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning in vision-language models (VLMs) faces critical challenges in balancing parameter efficiency, memory consumption, and optimization stability. While First-Order (FO) optimization (e.g., SGD) dominate current approaches, their deterministic gradients often trap models in suboptimal local minima and incur substantial memory overhead. This paper pioneers a systematic exploration of Zeroth-Order (ZO) optimization for vision-language continual learning (VLCL). We first identify the incompatibility of naive full-ZO adoption in VLCL due to modality-specific instability. To resolve this, we selectively applying ZO to either vision or language modalities while retaining FO in the complementary branch. Furthermore, we develop a layer-wise optimization paradigm that interleaves ZO and FO across network layers, capitalizing on the heterogeneous learning dynamics of shallow versus deep representations. A key theoretical insight reveals that ZO perturbations in vision branches exhibit higher variance than language counterparts, prompting a gradient sign normalization mechanism with modality-specific perturbation constraints. Extensive experiments on four benchmarks demonstrate that our method achieves state-of-the-art performance, reducing memory consumption by 89.1% compared to baselines. Code will be available upon publication.
- Abstract(参考訳): ビジョン言語モデル(VLM)における継続的な学習は、パラメータ効率、メモリ消費、最適化安定性のバランスをとる上で重要な課題に直面している。
ファーストオーダー(FO)最適化(例えば、SGD)が現在のアプローチを支配しているのに対し、決定論的勾配は、しばしば最適な局所最小値でモデルをトラップし、かなりのメモリオーバーヘッドを引き起こす。
本稿では,視覚言語連続学習(VLCL)のためのゼロ次最適化(ZO)を体系的に検討する。
まず,VLCLにおけるNuive full-ZO導入の不適合性について検討した。
これを解決するために、補足枝にFOを保持しながら、視覚または言語モダリティのいずれかにZOを選択的に適用する。
さらに,ネットワーク層をまたいだZOとFOをインターリーブするレイヤワイド最適化パラダイムを開発し,浅層と深層表現のヘテロジニアス学習ダイナミクスを生かした。
重要な理論的洞察は、視覚枝におけるZO摂動が言語よりも高い分散を示し、モダリティ特異的摂動制約を持つ勾配符号正規化機構を誘導することを示している。
4つのベンチマーク実験により,本手法が最先端性能を実現し,ベースラインと比較してメモリ消費を89.1%削減することを示した。
コードは出版時に公開されます。
関連論文リスト
- SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training [13.180761892449736]
低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)の訓練において、メモリ効率を大幅に改善した。
これらの手法は主にメモリの節約を強調し、しばしば収束の潜在的な加速を見落としている。
本稿では,SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。
我々は,SUMOがコンバージェンスを加速し,安定性を向上し,性能を向上し,最先端手法と比較してメモリ要求を最大20%削減することを示した。
論文 参考訳(メタデータ) (2025-05-30T16:08:40Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - SING: A Plug-and-Play DNN Learning Technique [25.563053353709627]
我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
論文 参考訳(メタデータ) (2023-05-25T12:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。