論文の概要: Dynamic Multimodal Prototype Learning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.03657v1
- Date: Fri, 04 Jul 2025 15:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.821939
- Title: Dynamic Multimodal Prototype Learning in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける動的マルチモーダルプロトタイプ学習
- Authors: Xingyu Zhu, Shuo Wang, Beier Zhu, Miaoge Li, Yunfan Li, Junfeng Fang, Zhicai Wang, Dongsheng Wang, Hanwang Zhang,
- Abstract要約: textbfProtoMMは、テスト期間中に視覚言語モデルに適応するためのマルチモーダルプロトタイプを構築する、トレーニング不要のフレームワークである。
プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
- 参考スコア(独自算出の注目度): 44.84161970425967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing attention to pre-trained vision-language models (VLMs), \eg, CLIP, substantial efforts have been devoted to many downstream tasks, especially in test-time adaptation (TTA). However, previous works focus on learning prototypes only in the textual modality while overlooking the ambiguous semantics in class names. These ambiguities lead to textual prototypes that are insufficient to capture visual concepts, resulting in limited performance. To address this issue, we introduce \textbf{ProtoMM}, a training-free framework that constructs multimodal prototypes to adapt VLMs during the test time. By viewing the prototype as a discrete distribution over the textual descriptions and visual particles, ProtoMM has the ability to combine the multimodal features for comprehensive prototype learning. More importantly, the visual particles are dynamically updated as the testing stream flows. This allows our multimodal prototypes to continually learn from the data, enhancing their generalizability in unseen scenarios. In addition, we quantify the importance of the prototypes and test images by formulating their semantic distance as an optimal transport problem. Extensive experiments on 15 zero-shot benchmarks demonstrate the effectiveness of our method, achieving a 1.03\% average accuracy improvement over state-of-the-art methods on ImageNet and its variant datasets.
- Abstract(参考訳): 事前訓練された視覚言語モデル (VLM) への注目が高まり、 \eg, CLIP は、特にテスト時間適応 (TTA) において、多くの下流タスクに多大な努力を払ってきた。
しかし、以前の研究は、クラス名における曖昧な意味論を見下ろしながら、プロトタイプをテキストのモダリティでのみ学習することに焦点を当てていた。
これらの曖昧さは、視覚的概念を捉えるのに不十分なテキストプロトタイプをもたらし、結果としてパフォーマンスが制限される。
この問題に対処するために、テスト期間中にVLMを適応させるためにマルチモーダルプロトタイプを構築するトレーニング不要のフレームワークである \textbf{ProtoMM} を紹介する。
プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
さらに重要なのは、テストストリームが流れるにつれて、視覚的な粒子が動的に更新されることだ。
これにより、マルチモーダルプロトタイプはデータから継続的に学習することができ、目に見えないシナリオにおける一般化性を高めます。
さらに,その意味的距離を最適な輸送問題として定式化し,プロトタイプとテスト画像の重要性を定量化する。
15のゼロショットベンチマークによる大規模な実験により,ImageNetとその変種データセット上での最先端手法に対する平均精度1.03倍の精度向上を実現し,本手法の有効性が示された。
関連論文リスト
- NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning [30.440574052935407]
既存の手法は視覚言語推論において3つの大きな課題に直面している。
ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法NODE-Adapterを提案する。
提案手法が既存の最先端手法を著しく上回っていることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする実験結果を得た。
論文 参考訳(メタデータ) (2024-07-11T17:04:19Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。