論文の概要: MAIL++: Multi-Modal Bi-directional Agent Layer for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.25479v1
- Date: Mon, 25 May 2026 06:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.353749
- Title: MAIL++: Multi-Modal Bi-directional Agent Layer for Vision-Language Models
- Title(参考訳): MAIL++:ビジョンランゲージモデルのためのマルチモーダル双方向エージェント層
- Authors: Kaixiang Chen, Pengfei Fang, Hui Xue,
- Abstract要約: Multi-Modal Interactive Agent Layerは、視覚言語モデルの本質的な計算モジュールに直接クロスモーダル結合を埋め込む。
MAILとMAIL++は一貫して最先端のPEFTメソッドを上回っている。
- 参考スコア(独自算出の注目度): 25.637441137217696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large vision-language models (VLMs) such as CLIP to downstream tasks remains challenging, as full fine-tuning is computationally prohibitive and prone to overfitting in low-data regimes. Parameter-efficient fine-tuning (PEFT) alleviates these issues with lightweight prompt- or adapter-based modules, and cross-modal coupling has proven especially effective by strengthening interactions between vision and language. However, existing coupling mechanisms predominantly rely on external auxiliary modules, leading to indirect, coarse-grained interactions that are structurally decoupled from the original VLM and thus limit representational expressiveness. In this paper, we propose Multi-Modal Interactive Agent Layer (MAIL), a PEFT paradigm that embeds cross-modal coupling directly into the intrinsic computation modules of VLMs. MAIL freezes the backbone and inserts lightweight agent layers after core modules, such as LayerNorm, to approximate the parameter updates induced by full fine-tuning. To couple visual and textual streams at this level, we introduce a bottleneck-based text-to-image bridge that jointly optimizes paired agent layers across modalities, coordinating the adaptation of corresponding computation modules. We further present MAIL++, which enables bidirectional cross-modal exchange through a meta agent layer, a meta-text bridge, and a meta-image bridge. At inference time, all agent layers are re-parameterized into the frozen backbone, preserving the original computational efficiency. Extensive experiments on few-shot image classification and few-shot universal cross-domain retrieval demonstrate that MAIL and MAIL++ consistently outperform state-of-the-art PEFT methods.
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)を下流タスクに適用することは依然として困難であり、完全な微調整は計算的に禁止され、低データ体制において過度に適合する傾向がある。
パラメータ効率の良い微調整(PEFT)は、これらの問題を軽量なプロンプトまたはアダプタベースのモジュールで緩和し、視覚と言語間の相互作用を強化することで、特に効果的であることが証明されている。
しかし、既存のカップリング機構は主に外部補助加群に依存しており、構造的に元のVLMから切り離され、表現表現性を制限する間接的、粗い粒度の相互作用をもたらす。
本稿では,VLMの固有計算モジュールに直接相互結合を組み込むPEFTパラダイムであるマルチモード対話型エージェント層(MAIL)を提案する。
MAILはバックボーンを凍結し、LayerNormのようなコアモジュールの後に軽量エージェント層を挿入し、完全な微調整によって引き起こされるパラメータ更新を近似する。
このレベルでの視覚的ストリームとテキスト的ストリームを結合するために、私たちはボトルネックベースのテキスト・ツー・イメージ・ブリッジを導入します。
さらに、メタエージェント層、メタテキストブリッジ、メタイメージブリッジを介して双方向のクロスモーダル交換を可能にするMAIL++について述べる。
推論時には、すべてのエージェント層が凍結したバックボーンに再パラメータ化され、元の計算効率が保たれる。
少数ショットのイメージ分類と少数ショットの普遍的クロスドメイン検索に関する大規模な実験は、MAILとMAIL++が一貫して最先端のPEFT法より優れていることを示した。
関連論文リスト
- Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking [16.123153889076104]
本稿では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
マルチレベル多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するため,Gram-based Semantic Alignment Hypergraph Fusion (GSAHF)モジュールを提案する。
提案手法は,複数のマルチモーダルトラッキングベンチマークにおいて,他のPEFT手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2026-03-14T02:51:10Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。