論文の概要: RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.06811v1
- Date: Sun, 07 Dec 2025 12:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.539868
- Title: RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models
- Title(参考訳): RMAdapter:視覚言語モデルのための再構成型マルチモーダルアダプタ
- Authors: Xiang Lin, Weixin Li, Shu Guo, Lihong Wang, Di Huang,
- Abstract要約: 再構成に基づくMultimodal Adapter(RMAdapter)について紹介する。
RMAdapter は,(1) パラメータ効率の高い微調整によってタスク固有の知識を注入する適応ブランチ,(2) 潜在空間の特徴を元の特徴空間に再構成することで一般的な知識を保存する再構築ブランチから構成される。
各層で局所的に再構成損失を計算し、プロジェクションモジュールを共有することにより、全体的な計算オーバーヘッドを最小限に抑えることができる。
- 参考スコア(独自算出の注目度): 36.97549106050972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Vision-Language Models (VLMs), \textit{e.g.} CLIP, have become essential tools in multimodal transfer learning. However, fine-tuning VLMs in few-shot scenarios poses significant challenges in balancing task-specific adaptation and generalization in the obtained model. Meanwhile, current researches have predominantly focused on prompt-based adaptation methods, leaving adapter-based approaches underexplored and revealing notable performance gaps. To address these challenges, we introduce a novel Reconstruction-based Multimodal Adapter (RMAdapter), which leverages a dual-branch architecture. Unlike conventional single-branch adapters, RMAdapter consists of: (1) an adaptation branch that injects task-specific knowledge through parameter-efficient fine-tuning, and (2) a reconstruction branch that preserves general knowledge by reconstructing latent space features back into the original feature space. This design facilitates a dynamic balance between general and task-specific knowledge. Importantly, although RMAdapter introduces an additional reconstruction branch, it is carefully optimized to remain lightweight. By computing reconstruction loss locally at each layer and sharing projection modules, the overall computational overhead is kept minimal. A consistency constraint is also incorporated to better regulate the trade-off between discriminability and generalization. We comprehensively evaluate the effectiveness of RMAdapter on three representative tasks: generalization to new categories, generalization to new target datasets, and domain generalization. Without relying on data augmentation or duplicate prompt designs, our RMAdapter consistently outperforms state-of-the-art approaches across all evaluation metrics.
- Abstract(参考訳): 事前訓練されたビジョンランゲージモデル(VLMs, \textit{e g } CLIP)は、マルチモーダルトランスファー学習において欠かせないツールとなっている。
しかし、少数ショットシナリオにおける微調整VLMは、得られたモデルにおけるタスク固有の適応と一般化のバランスをとる上で大きな課題を生じさせる。
一方、現在の研究は主にプロンプトベースの適応手法に重点を置いており、アダプタベースのアプローチは過小評価され、顕著なパフォーマンスギャップが明らかになっている。
これらの課題に対処するために,デュアルブランチアーキテクチャを活用した新しい再構成型マルチモーダルアダプタ(RMAdapter)を提案する。
従来の単分岐アダプタとは異なり、RMAdapterは(1)パラメータ効率の良い微調整によってタスク固有の知識を注入する適応ブランチ、(2)潜在空間の特徴を元の特徴空間に再構成することで一般的な知識を保存する再構築ブランチから構成される。
この設計は、一般的な知識とタスク固有の知識の動的バランスを促進する。
重要なことは、RMAdapterは追加の再構築ブランチを導入しているが、慎重に最適化され、軽量のままである。
各層で局所的に再構成損失を計算し、プロジェクションモジュールを共有することにより、全体的な計算オーバーヘッドを最小限に抑えることができる。
また、差別性と一般化の間のトレードオフをよりよく規制するために、一貫性の制約も組み込まれている。
新しいカテゴリへの一般化、新しいターゲットデータセットへの一般化、ドメインの一般化の3つのタスクにおけるRMAdapterの有効性を総合的に評価する。
データ拡張や重複したプロンプト設計に頼ることなく、RMAdapterはすべての評価指標で常に最先端のアプローチより優れています。
関連論文リスト
- Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model [2.2099003320482393]
Attn-Adapterは、CLIPの適応性を高める新しいオンライン数発学習フレームワークである。
我々の設計では、サポート例を使ってカテゴリ埋め込みを洗練するMemory Attn-Adapterと、ローカル機能とグローバル機能を統合することで画像埋め込みを強化したLocal-Global Attn-Adapterという2つのコンポーネントを通じて、データセット固有の情報を組み込んでいる。
Attn-Adapterは、クロスカテゴリとクロスデータセットの一般化において最先端のメソッドより優れており、CLIPバックボーン間の効率的な推論とスケーリングを維持している。
論文 参考訳(メタデータ) (2025-09-04T05:42:02Z) - GENRE-CMR: Generalizable Deep Learning for Diverse Multi-Domain Cardiac MRI Reconstruction [0.8749675983608171]
本稿では,GAN(Generative Adversarial Network)ベースのアーキテクチャであるGENRE-CMRを提案する。
実験により、GENRE-CMRはトレーニングおよび未確認データに関する最先端の手法を超越し、未確認の分布に対して 0.9552 SSIM と 38.90 dB PSNR を達成したことが確認された。
我々のフレームワークは、高品質なCMR再構成のための統一的で堅牢なソリューションを提供し、不均一な取得プロトコルをまたいだ臨床適応可能なデプロイメントの道を開く。
論文 参考訳(メタデータ) (2025-08-28T09:43:59Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。