論文の概要: A Retrospect to Multi-prompt Learning across Vision and Language
- arxiv url: http://arxiv.org/abs/2511.00191v1
- Date: Fri, 31 Oct 2025 18:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.662172
- Title: A Retrospect to Multi-prompt Learning across Vision and Language
- Title(参考訳): 視覚と言語にまたがるマルチプロンプト学習の振り返り
- Authors: Ziliang Chen, Xin Huang, Quanlong Guan, Liang Lin, Weiqi Luo,
- Abstract要約: 本稿では,エネルギベースのマルチプロンプト学習(EMPL)を提案する。
私たちのEMPLはパラメータ効率だけでなく、ドメイン内とドメイン外のオープン語彙の一般化のバランスも厳密に導き出します。
- 参考スコア(独自算出の注目度): 57.957750464643226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vision community is undergoing the unprecedented progress with the emergence of Vision-Language Pretraining Models (VLMs). Prompt learning plays as the holy grail of accessing VLMs since it enables their fast adaptation to downstream tasks with limited resources. Whereas existing researches milling around single-prompt paradigms, rarely investigate the technical potential behind their multi-prompt learning counterparts. This paper aims to provide a principled retrospect for vision-language multi-prompt learning. We extend the recent constant modality gap phenomenon to learnable prompts and then, justify the superiority of vision-language transfer with multi-prompt augmentation, empirically and theoretically. In terms of this observation, we propose an Energy-based Multi-prompt Learning (EMPL) to generate multiple prompt embeddings by drawing instances from an energy-based distribution, which is implicitly defined by VLMs. So our EMPL is not only parameter-efficient but also rigorously lead to the balance between in-domain and out-of-domain open-vocabulary generalization. Comprehensive experiments have been conducted to justify our claims and the excellence of EMPL.
- Abstract(参考訳): VLM(Vision-Language Pretraining Models)の出現に伴い、ビジョンコミュニティは前例のない進歩を遂げている。
プロンプト学習は、限られたリソースで下流タスクへの迅速な適応を可能にするため、VLMへのアクセスの聖杯として機能する。
シングルプロンプトパラダイムに関する既存の研究とは対照的に、マルチプロンプト学習の背景にある技術的ポテンシャルを調査することはめったにない。
本稿では,視覚言語によるマルチプロンプト学習の原則的振り返りを提案する。
近年の一定モードギャップ現象を学習可能なプロンプトに拡張し,マルチプロンプト拡張による視覚言語変換の優越性を実証的・理論的に正当化する。
本稿では,VLM で暗黙的に定義されているエネルギーベース分布からインスタンスを抽出することにより,複数のプロンプト埋め込みを生成するためのエネルギーベースマルチプロンプト学習(EMPL)を提案する。
したがって、EMPLはパラメータ効率だけでなく、ドメイン内とドメイン外のオープン語彙の一般化のバランスも厳密に導き出します。
我々の主張とEMPLの卓越性を正当化するための総合的な実験が実施されている。
関連論文リスト
- Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [89.2963764404892]
本稿では,言語プロンプト学習(VPT)と視覚プロンプト学習(VLM)の行動的差異を系統的に検討する。
我々は、FPL(Federated Prompt Learning)の堅牢性を評価するために、クライアントスケール、集約戦略、即時長といった様々なFLと迅速な構成の影響を評価する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。