論文の概要: MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.10088v1
- Date: Thu, 15 May 2025 08:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.248783
- Title: MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models
- Title(参考訳): MMRL++:視覚言語モデルのためのパラメータ効率と相互作用を考慮した表現学習
- Authors: Yuncheng Guo, Xiaodong Gu,
- Abstract要約: マルチモーダル表現学習は、テキストと画像エンコーダの両方に投影された空間トークンを表現トークンとして生成する。
MML++はパラメータ効率と対話性を考慮した拡張で、トレーニング可能なパラメータを大幅に削減する。
15データセットの実験では、MMRLとMMRL++が一貫して最先端のメソッドより優れていることが示されている。
- 参考スコア(独自算出の注目度): 4.828668077793944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs) have significantly advanced transfer learning across diverse tasks. However, adapting these models with limited few-shot data often leads to overfitting, undermining their ability to generalize to new tasks. To address this, we propose Multi-Modal Representation Learning (MMRL), which introduces a shared, learnable, modality-agnostic representation space. MMRL generates space tokens projected into both text and image encoders as representation tokens, enabling more effective cross-modal interactions. Unlike prior methods that mainly optimize class token features, MMRL inserts representation tokens into higher encoder layers--where task-specific features are more prominent--while preserving general knowledge in the lower layers. During training, both class and representation features are jointly optimized: a trainable projection layer is applied to representation tokens for task adaptation, while the projection layer for class token remains frozen to retain pre-trained knowledge. To further promote generalization, we introduce a regularization term aligning class and text features with the frozen VLM's zero-shot features. At inference, a decoupling strategy uses both class and representation features for base tasks, but only class features for novel tasks due to their stronger generalization. Building upon this, we propose MMRL++, a parameter-efficient and interaction-aware extension that significantly reduces trainable parameters and enhances intra-modal interactions--particularly across the layers of representation tokens--allowing gradient sharing and instance-specific information to propagate more effectively through the network. Extensive experiments on 15 datasets demonstrate that MMRL and MMRL++ consistently outperform state-of-the-art methods, achieving a strong balance between task-specific adaptation and generalization.
- Abstract(参考訳): 大規模事前学習型ビジョンランゲージモデル(VLM)は、多様なタスク間での伝達学習を大幅に進歩させた。
しかし、限られた数ショットのデータでこれらのモデルを適用すると、しばしば過度に適合し、新しいタスクに一般化する能力を損なう。
そこで本研究では,共有型,学習可能な,モダリティに依存しない表現空間を提供するマルチモーダル表現学習(MMRL)を提案する。
MMRLは、テキストと画像エンコーダの両方に投影された空間トークンを表現トークンとして生成し、より効果的なクロスモーダル相互作用を可能にする。
主にクラストークン機能を最適化する従来の方法とは異なり、MMRLは高いエンコーダ層に表現トークンを挿入する。
トレーニング中、クラスと表現の両方の機能が共同で最適化され、トレーニング可能なプロジェクション層がタスク適応のための表現トークンに適用される一方で、クラストークンのプロジェクション層は、トレーニング済みの知識を保持するために凍結されている。
一般化をさらに促進するために、凍結したVLMのゼロショット機能と、クラスとテキストの特徴を整列する正規化項を導入する。
推論において、デカップリング戦略は、基本タスクのクラス特徴と表現特徴の両方を使用するが、より強力な一般化のため、新しいタスクのクラス特徴のみを使用する。
そこで我々は,MMRL++を提案する。MMRL++は,トレーニング可能なパラメータを著しく削減し,特に表現トークンの層間でのモーダル内インタラクションを強化する,パラメータ効率とインタラクションを意識した拡張であり,ネットワークを介してより効果的に伝播するための勾配共有とインスタンス固有情報を提供する。
15のデータセットに対する大規模な実験により、MMRLとMMRL++は一貫して最先端の手法より優れており、タスク固有の適応と一般化のバランスが強いことが示されている。
関連論文リスト
- MMRL: Multi-Modal Representation Learning for Vision-Language Models [4.828668077793944]
MMRL(Multi-Modal Representation Learning)は、共有、学習可能、モダリティに依存しない表現空間を導入するフレームワークである。
MMRLはスペーストークンをテキストと画像表現トークンに投影し、より効果的なマルチモーダルインタラクションを促進する。
15のデータセットにわたる実験では、MRLが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-11T14:48:01Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。