論文の概要: iGSP:Implicit Gradient Subspace Projection for Efficient Continual Learning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.19301v1
- Date: Tue, 19 May 2026 03:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.097069
- Title: iGSP:Implicit Gradient Subspace Projection for Efficient Continual Learning of Vision-Language Models
- Title(参考訳): iGSP:視覚言語モデルの効率的な連続学習のための指数勾配部分空間投影
- Authors: Xuezhi Cui, Dongbo Zhou, Wang Guo, Zeyuan Wang, Ziyu Li, Gaozhi Zhou, Xian Li, Ling Zhao, Wentao Yang, Chao Tao, Haifeng Li,
- Abstract要約: iGSPは暗黙の勾配部分空間投影による効率的な適応を実現する新しいフレームワークである。
MTILベンチマークの実験は、iGSPが最先端の精度を達成することを示した。
- 参考スコア(独自算出の注目度): 14.623213614166259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models require efficient adaptation to continually emerging downstream tasks. While Parameter-Efficient Fine-Tuning mitigates catastrophic forgetting, assigning isolated modules per task leads to parameter explosion. Conversely, recent similarity-driven sharing mechanisms falsely equate superficial visual similarity with underlying alignment consistency. This fundamental mismatch triggers severe negative transfer between visually similar but logically distinct tasks and fails to exploit alignment reuse across visually diverse ones. We argue thatalignment sharing is fundamentally a geometric problem of overlapping optimization trajectories within shared low-rank subspaces. Grounded in this insight, we propose iGSP, a novel framework that achieves efficient adaptation via implicit gradient subspace projection. Leveraging the early convergence of MoE routers to establish the subspace basis, iGSP bifurcates the adaptation process into two phases. First, the Subspace Identification phase introduces candidate experts via basis pre-expansion, applies a novel subspace-constrained regularization to implicitly project new task gradients onto the historical subspace, and precisely prunes redundant dimensions by treating routing probabilities as gradient flow indicators, ultimately to maximize knowledge reuse. Second, the Orthogonal Subspace Fine-Tuning phase fixes this structural basis and removes the regularization to rapidly fit the task-specific residual loss. Extensive experiments on the MTIL benchmark demonstrate that iGSP achieves state-of-the-art accuracy while significantly improving training efficiency, reducing the average trainable parameters by 42.7\% compared to current SOTA methods, and decreasing the final total parameters by 86.9\% relative to counterparts. The source code is available at https://github.com/GeoX-Lab/iGSP.
- Abstract(参考訳): ビジョンランゲージモデルでは、継続的な下流タスクへの効率的な適応が必要である。
パラメータ効率の良いファインチューニングは破滅的な忘れを緩和するが、タスクごとに独立したモジュールを割り当てると、パラメータの爆発につながる。
逆に、近年の類似性駆動型共有機構は、下層の整合性と表面的な類似性を誤って等価に表現している。
この基本的なミスマッチは、視覚的に類似しているが論理的に異なるタスク間の重大な負の移動を引き起こし、視覚的に多様なタスク間でのアライメントの再利用を活用できない。
我々は、アライメント共有は、共有低ランク部分空間内の最適化軌道の重なり合う幾何学的問題であると主張する。
この知見に基づいて、暗黙の勾配部分空間投影による効率的な適応を実現する新しいフレームワークiGSPを提案する。
MoEルータの早期収束を利用して、サブスペース基底を確立することにより、iGSPは適応プロセスを2つのフェーズに分岐させる。
第1に、サブスペース同定フェーズは、基礎的な事前拡張によって候補エキスパートを導入し、新しいサブスペース制約付き正規化を適用して、新しいタスク勾配を暗黙的に歴史的なサブスペースに投影し、ルーティング確率を勾配フロー指標として扱い、最終的には知識再利用を最大化する。
第二に、直交部分空間微細調整フェーズはこの構造的基盤を固定し、タスク固有の残留損失に迅速に適合するように正規化を除去する。
MTILベンチマークの大規模な実験により、iGSPは訓練効率を著しく向上させ、訓練可能な平均パラメータを現在のSOTA法と比較して42.7%削減し、最終的な総パラメータを86.9%削減した。
ソースコードはhttps://github.com/GeoX-Lab/iGSPで入手できる。
関連論文リスト
- Hierarchical Dual-Subspace Decoupling for Continual Learning in Vision-Language Models [63.169731309799324]
クラスインクリメンタルラーニングは、学習前の情報を保存しながら、新たな知識を継続的に獲得することを目的としており、破滅的な忘れを軽減している。
視覚言語モデルにおける連続学習のための階層型デュアルサブスペースデカップリングフレームワークであるHDSDを提案する。
具体的には、パラメータ空間を一般およびタスク固有の部分空間に明示的に分解する軽量な特徴変調モジュール(FMM)を導入する。
論文 参考訳(メタデータ) (2026-05-08T09:42:05Z) - Bayesian Learning-Enhanced Navigation with Deep Smoothing for Inertial-Aided Navigation [8.510813384980262]
BLENDSはデータ駆動のポストプロセッシングフレームワークで、トランスフォーマーベースのニューラルネットワークによって従来の2フィルタスムーズな拡張を行う。
BLENDSは、ベースライン前方EKFよりも最大63%の水平位置改善を実現している。
論文 参考訳(メタデータ) (2026-03-26T12:11:59Z) - The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation [86.83038620308423]
Continual Test-Time Adaptation (CTTA)は、ソースデータにアクセスすることなく、分散シフトの下でラベルなしのデータストリームへのオンライン適応を可能にすることを目的としている。
我々は,GOLD ( Guided Online Low-rank Directional Adaptation) を提案する。これは,Goldenサブスペースに機能を投影する軽量アダプタを用いて,サブスペースがAGOPを介して動的に更新される間に,コンパクトなスケーリングベクトルを学習する。
論文 参考訳(メタデータ) (2026-03-23T12:48:38Z) - DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators [4.0407133618465005]
本稿では、トラジェクトリ最適化のための新しいアルゴリズム、Decoupled Reduced-spaceとAdaptive Feasibility-Repair Trajectory Optimization (DRAFTO)を提案する。
連立限界実現性を扱いながら繰り返し制約された最適化の回数を減らすため、最適化を低空間ガウスニュートン(Gass-Newton, GN)降下に分離する。
CHOMP, TrajOpt, GPMP2, FACTOなどの最適化型プランナに対するベンチマークテストの結果, 様々なシナリオやタスクにおいて高い効率性と信頼性が検証された。
論文 参考訳(メタデータ) (2026-03-10T20:24:42Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry [4.94446914034065]
GIST (Gradient Isometric Subspace Transformation) は、軸方向のスケーリングをロバストな部分空間アライメントに置き換える。
GISTは, ストレージの0.29%, 計算時間の25%で, 最先端のベースラインに適合または優れることを示す。
論文 参考訳(メタデータ) (2026-02-20T19:44:24Z) - Unifying Search and Recommendation in LLMs via Gradient Multi-Subspace Tuning [33.69176756907003]
Gradient Multi-Subspace Tuning (GEMS)は、検索とレコメンデーションタスクを統合する新しいフレームワークである。
GEMSは検索タスクとレコメンデーションタスクの両方において、最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-14T14:03:07Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。