論文の概要: Dynamic Rank Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.05668v1
- Date: Tue, 08 Jul 2025 04:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.564359
- Title: Dynamic Rank Adaptation for Vision-Language Models
- Title(参考訳): 視覚言語モデルに対する動的ランク適応
- Authors: Jiahui Wang, Qin Xu, Bo Jiang, Bin Luo,
- Abstract要約: そこで我々は,新しいクラス一般化を実現するために,動的ランク適応法(DRA)を提案する。
DRAは、一般的な知識を維持するために訓練中の特徴の重要性に基づいて適応ランクを動的に割り当てる。
大規模実験により,提案したDRAの有効性と優位性を実証した。
- 参考スコア(独自算出の注目度): 15.002501540565781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large vision-language models (VLMs) like CLIP demonstrate impressive generalization ability. Existing prompt-based and adapter-based works have made significant progress in fine-tuning VLMs but still face the challenges of maintaining strong generalization abilities, particularly towards unseen new classes. This limitation partly arises from these methods treating all tokens of the image and text encoder equally, which can lead to overfitting on less informative features (e.g., background noise, template words) and degrade the general representations that are crucial for novel concept recognition. To address this issue, we propose Dynamic Rank Adaptation (DRA), a novel adapter variant method, designed specifically to enhance new class generalization. DRA dynamically allocates adaptation ranks based on the importance of features during training to preserve general knowledge. DRA first employs token importance grouping, using sequence attention to evaluate and group tokens by their importance. Then, we adopt rank adaptation according to the importance of each token group dynamically by assigning higher feature ranks to the more important tokens. Also, we design a new channel response mechanism to prioritize the preservation and adaptation of feature channels identified as the most informative for each instance. In addition, a L1 regularization term is introduced to stabilize the training. Extensive experiments demonstrate the effectiveness and superiority of our proposed DRA over existing works, especially on enhancing the performance of new classes on various benchmarks, including base-new classes, cross-datasets evaluation and domain generalization. The source code will be published after the paper is received.
- Abstract(参考訳): CLIPのような事前訓練された大規模視覚言語モデル(VLM)は、素晴らしい一般化能力を示している。
既存のプロンプトベースおよびアダプタベースの研究は、微調整VLMにおいて大きな進歩を遂げてきたが、しかしながら、特に目に見えない新しいクラスに向けて、強力な一般化能力を維持するという課題に直面している。
この制限は、画像とテキストエンコーダの全てのトークンを等しく扱う方法から生じるもので、情報の少ない特徴(例えば、背景ノイズ、テンプレートワード)に過度に適合し、新しい概念認識に不可欠な一般的な表現を劣化させる可能性がある。
そこで本研究では,新しいクラス一般化に特化して設計された,動的ランク適応(Dynamic Rank Adaptation, DRA)を提案する。
DRAは、一般的な知識を維持するために訓練中の特徴の重要性に基づいて適応ランクを動的に割り当てる。
DRAはまずトークンの重要性のグルーピングを採用し、シーケンシャルアテンションを使用してトークンの評価とグループ化を行う。
次に,より重要なトークンにより高い特徴ランクを割り当てることで,各トークン群の重要性に応じたランク適応を動的に適用する。
また,各インスタンスに最も有用な特徴チャネルの保存と適応を優先する新たなチャネル応答機構を設計する。
また、トレーニングを安定させるためにL1正規化項が導入された。
大規模な実験により,提案したDRAの有効性と優位性を実証し,特に,ベースクラス,クロスデータセット評価,ドメイン一般化など,様々なベンチマークにおける新しいクラスの性能向上に寄与した。
ソースコードは、論文が受理された後に公開される。
関連論文リスト
- MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models [4.828668077793944]
マルチモーダル表現学習は、テキストと画像エンコーダの両方に投影された空間トークンを表現トークンとして生成する。
MML++はパラメータ効率と対話性を考慮した拡張で、トレーニング可能なパラメータを大幅に削減する。
15データセットの実験では、MMRLとMMRL++が一貫して最先端のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2025-05-15T08:43:53Z) - CalFuse: Feature Calibration Enhanced Parameter Fusion for Class-Continual Learning [12.022673345835688]
CCL(Class-Continual Learning)は、モデルが従来のクラスを維持しながら、新しいクラスの知識を継続的に学習することを可能にする。
従来のCCLメソッドは視覚的特徴に依存しており、複雑なマルチモーダルシナリオでの有効性を制限している。
動的知識融合を行う拡張パラメータ融合のためのフレームワークであるCalFuseを提案する。
論文 参考訳(メタデータ) (2025-03-24T13:44:12Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Adapter-Enhanced Semantic Prompting for Continual Learning [91.63494614012362]
継続学習(CL)は、モデルが進化するデータストリームに適応できるようにする。
従来のメソッドは通常、再生のために過去のデータを保持したり、新しい知識を学ぶためにモデルに追加のブランチを追加したりします。
本稿では,プロンプトチューニングとアダプタ技術を統合した軽量CLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-15T06:14:55Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。