論文の概要: SharpZO: Hybrid Sharpness-Aware Vision Language Model Prompt Tuning via Forward-Only Passes
- arxiv url: http://arxiv.org/abs/2506.20990v1
- Date: Thu, 26 Jun 2025 04:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.970599
- Title: SharpZO: Hybrid Sharpness-Aware Vision Language Model Prompt Tuning via Forward-Only Passes
- Title(参考訳): SharpZO: フォワードオンリーパスによるハイブリッドシャープネス対応ビジョン言語モデルプロンプトチューニング
- Authors: Yifan Yang, Zhen Zhang, Rupak Vignesh Swaminathan, Jing Liu, Nathan Susanj, Zheng Zhang,
- Abstract要約: 微調整型視覚言語モデル(VLM)は、様々な下流タスクで顕著なパフォーマンスを実現している。
バックプロパゲーション(BP)を通じてモデル勾配にアクセスする必要があり、メモリ制約のある推論のみのエッジデバイスには適さない。
本稿では,ZO VLMファインチューニングの性能向上を目的としたシャープネス対応ゼロ階最適化(SharpZO)手法を提案する。
- 参考スコア(独自算出の注目度): 18.727093839777755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning vision language models (VLMs) has achieved remarkable performance across various downstream tasks; yet, it requires access to model gradients through backpropagation (BP), making them unsuitable for memory-constrained, inference-only edge devices. To address this limitation, previous work has explored various BP-free fine-tuning methods. However, these approaches often rely on high-variance evolutionary strategies (ES) or zeroth-order (ZO) optimization, and often fail to achieve satisfactory performance. In this paper, we propose a hybrid Sharpness-aware Zeroth-order optimization (SharpZO) approach, specifically designed to enhance the performance of ZO VLM fine-tuning via a sharpness-aware warm-up training. SharpZO features a two-stage optimization process: a sharpness-aware ES stage that globally explores and smooths the loss landscape to construct a strong initialization, followed by a fine-grained local search via sparse ZO optimization. The entire optimization relies solely on forward passes. Detailed theoretical analysis and extensive experiments on CLIP models demonstrate that SharpZO significantly improves accuracy and convergence speed, achieving up to 7% average gain over state-of-the-art forward-only methods.
- Abstract(参考訳): 微調整型視覚言語モデル(VLM)は、様々な下流タスクで顕著なパフォーマンスを実現しているが、バックプロパゲーション(BP)によるモデル勾配へのアクセスが必要であり、メモリ制限された推論のみのエッジデバイスには適さない。
この制限に対処するため、以前の研究ではBPフリーな微調整法が検討されている。
しかしながら、これらのアプローチは、しばしば高分散進化戦略(ES)やゼロ次最適化(ZO)に依存し、良好な性能を達成できないことが多い。
本稿では,ZO VLMファインチューニングの性能向上を目的としたシャープネス対応ゼロ階最適化(SharpZO)手法を提案する。
シャープZOには2段階の最適化プロセスがある: シャープネスを意識したESステージは、ロスランドスケープをグローバルに探索し、滑らかにし、強力な初期化を構築し、続いてスパースZO最適化によるきめ細かい局所探索を行う。
全最適化はフォワードパスにのみ依存する。
CLIPモデルに関する詳細な理論分析と広範な実験により、SharpZOは精度と収束速度を大幅に向上し、最先端のフォワードオンリー法よりも7%平均的なゲインを達成することが示されている。
関連論文リスト
- Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [37.507489928116804]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。
本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
我々はtextbfDivergence-driven textbfZeroth-textbfOrder (textbfDiZO) の最適化を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:03:17Z) - PROFIT: A Specialized Optimizer for Deep Fine Tuning [9.082267858686933]
ProFIT(Prolly Restricted For Iterative Training)は、新しいタスクやデータセット上で、段階的に微調整された収束モデルに特化して設計された第1弾である。
単純な時間化プロセスを用いることで、PROFITは様々なタスクで従来の微調整方法より優れている。
PROFITはロジックにカプセル化され、最小限のエンジニアリング労力で任意のトレーニングパイプラインに容易に統合される。
論文 参考訳(メタデータ) (2024-12-02T19:37:34Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。