論文の概要: From Points to Clouds: Learning Robust Semantic Distributions for Multi-modal Prompts
- arxiv url: http://arxiv.org/abs/2511.22897v1
- Date: Fri, 28 Nov 2025 06:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.780671
- Title: From Points to Clouds: Learning Robust Semantic Distributions for Multi-modal Prompts
- Title(参考訳): クラウドへ:マルチモーダルプロンプトのためのロバストな意味分布を学習する
- Authors: Weiran Li, Yeqiang Liu, Yijie Wei, Mina Han, Xin Liu, Zhenbo Li,
- Abstract要約: 大規模視覚言語モデル(VLM)を適応するための重要な手法として,MPL(Multimodal Prompt Learning)が登場した。
拡散モデルにインスパイアされた新しいフレームワークであるPoints-to-Clouds(P2C)を紹介する。
P2Cは、11データセットにわたる実験において、強いベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 11.693848445032259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Prompt Learning (MPL) has emerged as a pivotal technique for adapting large-scale Visual Language Models (VLMs). However, current MPL methods are fundamentally limited by their optimization of a single, static point representation. This paradigm is inherently brittle, leads to overfitting on base classes, and generalizes poorly to novel or ambiguous categories. We challenge this point paradigm, proposing that robust generalization requires learning a semantic cloud (i.e., a distribution over the embedding space). To achieve this, we introduce Points-to-Clouds (P2C), a novel framework inspired by diffusion models that reframes prompt learning as a dynamic denoising task. At the core of P2C is a dual denoising mechanism: a Dynamic Prompt Denoising (DPD) mechanism perturbs text prompts with sophisticated, annealed noise to learn a smoother semantic landscape, while an auxiliary V-L Mapper denoising loss re-tasks the mapper as a denoising autoencoder. This forces the mapper to reconstruct clean visual prompts from noisy text inputs, ensuring robust cross-modal alignment. Extensive experiments across 11 datasets demonstrate that P2C consistently outperforms strong baselines. On the base-to-novel generalization benchmark, our method achieves a Harmonic Mean of 79.7%, representing a relative improvement of 1.4% over the baseline. The code and models are available at https://vranlee.github.io/P2C/.
- Abstract(参考訳): 大規模ビジュアル言語モデル(VLM)に適応するための重要な手法として,MPL(Multimodal Prompt Learning)が登場している。
しかし、現在のMPL法は、単一の静的な点表現の最適化によって、基本的に制限されている。
このパラダイムは本質的に脆弱であり、ベースクラスに過度に適合し、新規または曖昧なカテゴリにはあまり一般化しない。
我々はこの点パラダイムに挑戦し、ロバストな一般化には意味論的クラウド(つまり埋め込み空間上の分布)の学習が必要であることを示唆する。
そこで我々は,P2C(Points-to-Clouds)という,拡散モデルに触発された新しいフレームワークを紹介した。
ダイナミック・プロンプト・デノナイジング(DPD)機構は、テキストプロンプトを高度にアニールしたノイズでパースし、スムーズなセマンティックな景観を学習し、補助的なV-Lマッパーはデノナイジング・オートエンコーダとしてマッパーを再タスクする。
これにより、マッパーはノイズの多いテキスト入力からクリーンな視覚的プロンプトを再構築し、堅牢なクロスモーダルアライメントを確保する。
11のデータセットにわたる大規模な実験は、P2Cが強いベースラインを一貫して上回っていることを示している。
ベース・ツー・ノーベル一般化ベンチマークでは,ベースラインよりも相対的に1.4%向上したハーモニック平均79.7%を達成した。
コードとモデルはhttps://vranlee.github.io/P2C/で公開されている。
関連論文リスト
- DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-05T15:18:32Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - ANIMC: A Soft Framework for Auto-weighted Noisy and Incomplete
Multi-view Clustering [59.77141155608009]
本稿では, ソフトな自己重み付き戦略と2倍のソフトな正規回帰モデルを用いて, 自動重み付きノイズと不完全なマルチビュークラスタリングフレームワーク(ANIMC)を提案する。
ANIMCには3つの独特な利点がある: 1) 異なるシナリオでフレームワークを調整し、その一般化能力を向上させるソフトアルゴリズム、2) 各ビューに対する適切な重み付けを自動的に学習し、ノイズの影響を低減し、3) 異なるビューで同じインスタンスを整列させ、欠落したインスタンスの影響を減少させる。
論文 参考訳(メタデータ) (2020-11-20T10:37:27Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。