論文の概要: CMAP: Cross-Modal Adaptive Prompting for Multi-Domain Task-Incremental Learning
- arxiv url: http://arxiv.org/abs/2605.25708v1
- Date: Mon, 25 May 2026 11:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.829017
- Title: CMAP: Cross-Modal Adaptive Prompting for Multi-Domain Task-Incremental Learning
- Title(参考訳): CMAP:マルチドメインタスクインクリメンタル学習のためのクロスモーダル・アダプティブ・プロンプト
- Authors: Sriram Mandalika,
- Abstract要約: テキスト空間のタスクルーティングは、凍結されたCLIPテキストプロトタイプとコサイン類似のビジュアルガウスマッチングを置き換える。
視覚テキストの信頼度は、単一ガウスのクラスモデリングをK平均視覚プロトタイプとタスク校正しきい値の下でのクロスモーダルアライメントスコアに置き換える。
MTILベンチマークは118.7%と1201のクラスで74.2%のTransfer、80.5%のAverage、そして8のLast Under Order-Iを達成した。
- 参考スコア(独自算出の注目度): 3.1368611610608856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-domain task-incremental learning requires a model to sequentially acquire knowledge across visually diverse domains without forgetting prior tasks, and without access to task identity at inference. Parameter-efficient methods built on frozen vision-language models have made strong progress, yet all existing approaches rely exclusively on visual features for task routing, confidence estimation, and encoder adaptation, leaving CLIP's cross-modal text embedding space entirely unexploited. We address this gap through three contributions. Text-space task routing replaces visual Gaussian matching with cosine similarity to frozen CLIP text prototypes, giving order-independent routing robust to data scarcity at zero parameter cost. Multi-prototype visual-textual confidence replaces single-Gaussian class modeling with K-means visual prototypes and cross-modal alignment scores under task-calibrated thresholds. Symmetric cross-modal gating extends per-layer Gumbel gates to the text encoder conditioned on batch image features, preserving cross-modal alignment on out-of-distribution inputs. On the MTIL benchmark spanning 11 datasets and 1201 classes, our method achieves 74.2% Transfer, 80.5% Average, and 88.7% Last under Order-I, surpassing the prior state of the art by 5.0, 3.7, and 3.0 percentage points with only 2.5M trainable parameters and no external data.
- Abstract(参考訳): マルチドメインタスク増分学習では、事前のタスクを忘れることなく、推論時にタスクのアイデンティティにアクセスすることなく、視覚的に多様なドメインにまたがる知識を逐次取得するモデルが必要である。
凍結視覚言語モデル上に構築されたパラメータ効率の高い手法は大きな進歩を遂げているが、既存のアプローチはすべてタスクルーティング、信頼性推定、エンコーダ適応の視覚的特徴にのみ依存しており、CLIPのクロスモーダルテキスト埋め込み空間は明らかにされていない。
3つのコントリビューションを通じて、このギャップに対処します。
テキストスペースタスクルーティングは、ビジュアルガウスマッチングを凍結されたCLIPテキストプロトタイプとコサイン類似性に置き換え、パラメータコストゼロでデータ不足に頑健な順序非依存のルーティングを提供する。
マルチプロトタイプ視覚テキスト信頼度は、単一ガウスのクラスモデリングをK平均視覚プロトタイプとタスク校正しきい値の下でのクロスモーダルアライメントスコアに置き換える。
対称的クロスモーダルゲーティングは、層ごとのガンベルゲートを、バッチ画像の特徴を条件としたテキストエンコーダに拡張し、アウト・オブ・ディストリビューションの入力にクロスモーダルアライメントを保持する。
MTILベンチマークは11のデータセットと1201のクラスにまたがって74.2%のTransfer、80.5%のAverage、88.7%のLast-Iを達成した。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation [12.481603155570037]
textbfMMLoP (textbfMulti-textbfModal textbfLow-Rank textbfPrompting) を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:00:34Z) - MM-ACT: Learn from Multimodal Parallel Generation to Act [80.9182259389658]
MM-ACTは、テキスト、画像、アクションを共有トークン空間に統合し、3つのモード全てで生成する。
コンテキスト共有型マルチモーダル学習は、共有コンテキストから3つのモードすべての生成を監督する。
提案手法は,実フランカの3つのタスクで96.3%,実フランカの3つのタスクで72.0%,RoboTwin2.0の8つの2つのタスクで52.38%を達成している。
論文 参考訳(メタデータ) (2025-11-30T16:46:35Z) - Mario at EXIST 2025: A Simple Gateway to Effective Multilingual Sexism Detection [8.40042895828361]
EXIST 2025 Task 1は、Llama 3.1 8Bの階層的低ランク適応(LoRA)を通じて、英語とスペイン語のツイートでテキストベースの性差別を検出する。
本手法では,3つの階層的なサブタスク間の依存関係を明示的にモデル化する条件付きアダプタルーティングを導入する。
提案手法は,トレーニング時間を75%削減し,モデルストレージを98%削減すると同時に,すべてのサブタスクで競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-15T05:30:32Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。