論文の概要: AmPLe: Supporting Vision-Language Models via Adaptive-Debiased Ensemble Multi-Prompt Learning
- arxiv url: http://arxiv.org/abs/2512.18411v1
- Date: Sat, 20 Dec 2025 16:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.324464
- Title: AmPLe: Supporting Vision-Language Models via Adaptive-Debiased Ensemble Multi-Prompt Learning
- Title(参考訳): AmPLe:Adaptive-Debiased Ensemble Multi-Prompt Learningによる視覚言語モデル支援
- Authors: Fei Song, Yi Li, Jiangmeng Li, Rui Wang, Changwen Zheng, Fanjiang Xu, Hui Xiong,
- Abstract要約: 既存のマルチプロンプト学習手法は主に、単一の基礎概念言語モデル内で、細心の注意を払って設計されたプロンプトを活用することに焦点を当てている。
同じプロンプトは異なる視覚言語モデル間で異なる意味を伝達することができ、結果として同一のプロンプトの矛盾した予測をもたらす。
本稿では,AmPLeと略すアダプティブ・デバイアス・アンサンブル・マルチプロンプト・ラーニングを提案し,2種類のバイアスを同時に緩和する。
- 参考スコア(独自算出の注目度): 35.68750432673712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-prompt learning methods have emerged as an effective approach for facilitating the rapid adaptation of vision-language models to downstream tasks with limited resources. Existing multi-prompt learning methods primarily focus on utilizing various meticulously designed prompts within a single foundation vision-language model to achieve superior performance. However, the overlooked model-prompt matching bias hinders the development of multi-prompt learning, i.e., the same prompt can convey different semantics across distinct vision-language models, such as CLIP-ViT-B/16 and CLIP-ViT-B/32, resulting in inconsistent predictions of identical prompt. To mitigate the impact of this bias on downstream tasks, we explore an ensemble learning approach to sufficiently aggregate the benefits of diverse predictions. Additionally, we further disclose the presence of sample-prompt matching bias, which originates from the prompt-irrelevant semantics encapsulated in the input samples. Thus, directly utilizing all information from the input samples for generating weights of ensemble learning can lead to suboptimal performance. In response, we extract prompt-relevant semantics from input samples by leveraging the guidance of the information theory-based analysis, adaptively calculating debiased ensemble weights. Overall, we propose Adaptive-Debiased Ensemble MultiPrompt Learning, abbreviated as AmPLe, to mitigate the two types of bias simultaneously. Extensive experiments on three representative tasks, i.e., generalization to novel classes, new target datasets, and unseen domain shifts, show that AmPLe can widely outperform existing methods. Theoretical validation from a causal perspective further supports the effectiveness of AmPLe.
- Abstract(参考訳): マルチプロンプト学習手法は、限られたリソースで下流のタスクに視覚言語モデルの迅速な適応を容易にする効果的な手法として登場した。
既存のマルチプロンプト学習手法は主に、1つの基礎概念言語モデルにおいて、より優れた性能を達成するために、細心の注意を払って設計されたプロンプトを活用することに焦点を当てている。
しかし、見過ごされたモデル-プロンプトマッチングバイアスは、マルチプロンプト学習の発展を妨げる。すなわち、同じプロンプトが、CLIP-ViT-B/16やCLIP-ViT-B/32のような異なる視覚言語モデル間で異なる意味を伝達することができ、同じプロンプトの一貫性のない予測をもたらす。
このバイアスが下流タスクに与える影響を軽減するために,多様な予測の利点を十分に集約するアンサンブル学習アプローチを検討する。
さらに、入力サンプルにカプセル化される素早い非関連意味論から生じるサンプルプロンプトマッチングバイアスの存在も明らかにする。
したがって、入力サンプルからの全ての情報を直接利用して、アンサンブル学習の重みを生成することで、準最適性能が得られる。
そこで本研究では,情報理論に基づく分析のガイダンスを利用して,入力サンプルからプロンプト関連セマンティクスを抽出し,デバイアスアンサンブル重みを適応的に計算する。
全体として,AmPLeと略すアダプティブ・デバイアス・アンサンブル・マルチプロンプト学習(Adaptive-Debiased Ensemble Multi Prompt Learning)を提案し,2種類のバイアスを同時に緩和する。
3つの代表的なタスク、すなわち新しいクラスへの一般化、新しいターゲットデータセット、そして目に見えないドメインシフトに関する広範囲な実験は、AmPLeが既存のメソッドよりはるかに優れていることを示している。
因果的観点からの理論的検証は、AmPLeの有効性をさらに裏付ける。
関連論文リスト
- MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。