Fugu-MT 論文翻訳(概要): GalLoP: Learning Global and Local Prompts for Vision-Language Models

論文の概要: GalLoP: Learning Global and Local Prompts for Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.01400v2
Date: Fri, 29 Nov 2024 10:46:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.326817
Title: GalLoP: Learning Global and Local Prompts for Vision-Language Models
Title（参考訳）: GalLoP:ビジョンランゲージモデルのためのグローバルおよびローカルプロンプトの学習
Authors: Marc Lafon, Elias Ramzi, Clément Rambour, Nicolas Audebert, Nicolas Thome,
Abstract要約: 我々は,グローバル・ローカル・プロンプト(GalLoP)という,グローバル・ローカル・プロンプトとローカル・ビジュアル・特徴の両面を活用した多様なプロンプトを学習する新しいプロンプト学習手法を紹介した。 GalLoPは、ドメインの一般化とOOD検出の両方において強い堅牢性を示し、専用のOOD検出方法よりも優れている。
参考スコア（独自算出の注目度）: 18.61218795834041
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt learning has been widely adopted to efficiently adapt vision-language models (VLMs), e.g. CLIP, for few-shot image classification. Despite their success, most prompt learning methods trade-off between classification accuracy and robustness, e.g. in domain generalization or out-of-distribution (OOD) detection. In this work, we introduce Global-Local Prompts (GalLoP), a new prompt learning method that learns multiple diverse prompts leveraging both global and local visual features. The training of the local prompts relies on local features with an enhanced vision-text alignment. To focus only on pertinent features, this local alignment is coupled with a sparsity strategy in the selection of the local features. We enforce diversity on the set of prompts using a new ``prompt dropout'' technique and a multiscale strategy on the local prompts. GalLoP outperforms previous prompt learning methods on accuracy on eleven datasets in different few shots settings and with various backbones. Furthermore, GalLoP shows strong robustness performances in both domain generalization and OOD detection, even outperforming dedicated OOD detection methods. Code and instructions to reproduce our results: https://github.com/MarcLafon/gallop.
Abstract（参考訳）: プロンプト学習は視覚言語モデル(VLM)、例えばCLIPを数ショット画像分類に効果的に適用するために広く採用されている。その成功にもかかわらず、最も迅速な学習手法は分類精度と堅牢性、例えばドメインの一般化やアウト・オブ・ディストリビューション(OOD)の検出のトレードオフである。本研究では,グローバル・ローカル・プロンプト(GalLoP)を導入した。グローバル・ローカル・プロンプト(GalLoP)は,多種多様なプロンプトを学習する新しいプロンプト学習手法である。局所的なプロンプトの訓練は、視覚テキストアライメントが強化された局所的な特徴に依存している。この局所的なアライメントは、関連する特徴のみに焦点を合わせるために、局所的な特徴の選択におけるスパーシティ戦略と結合される。我々は,新しい<prompt dropout'テクニックと局所的なプロンプトのマルチスケール戦略を用いて,プロンプトの集合に多様性を強制する。 GalLoPは、異なるいくつかのショット設定とさまざまなバックボーンで11のデータセットの精度で、以前のプロンプト学習方法よりも優れています。さらに、GalLoPはドメイン一般化とOOD検出の両方において強い堅牢性を示し、専用のOOD検出方法よりも優れている。結果の再現のためのコードと指示:https://github.com/MarcLafon/gallop。

関連論文リスト

An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。 The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文参考訳（メタデータ） (2024-11-09T05:22:13Z)
Enhancing Outlier Knowledge for Few-Shot Out-of-Distribution Detection with Extensible Local Prompts [25.51735861729728]
Out-of-Distribution (OOD) 検出は、既知のカテゴリとアウトリーチを区別することを目的としている。本稿では,局所的なプロンプトによる局所的な拡張を強調するための新しいチューニングパラダイムを提案する。提案手法は,ImageNet-1kデータセットを用いた4ショットチューニングにおいて,最先端手法に対して平均FPR95を5.17%削減する。
論文参考訳（メタデータ） (2024-09-07T11:24:52Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
LoDisc: Learning Global-Local Discriminative Features for Self-Supervised Fine-Grained Visual Recognition [18.442966979622717]
本稿では,微妙な局所的きめ細かい特徴学習をグローバルな自己教師付きコントラスト学習に取り入れる。局所的識別(LoDisc)と呼ばれる新しいプリテキストタスクは、局所的な中心領域に対する自己教師付きモデルの焦点を明示的に監督するために提案される。そこで本稿では, 局所識別課題が重要な地域において, きめ細かな手掛かりを効果的に強化し, 画像のきめ細かな特徴表現をさらに洗練させることを実証する。
論文参考訳（メタデータ） (2024-03-06T21:36:38Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-07-03T10:14:33Z)
LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning [37.36999826208225]
本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。 LoCoOpは、トレーニング中にCLIPローカル機能の一部をOOD機能として利用するOOD正規化を実行する。 LoCoOpは、既存のゼロショットと完全に教師付き検出方法より優れている。
論文参考訳（メタデータ） (2023-06-02T06:33:08Z)
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。 CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文参考訳（メタデータ） (2023-05-15T14:42:02Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)
L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文参考訳（メタデータ） (2022-04-07T04:31:32Z)
An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。 ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文参考訳（メタデータ） (2021-11-03T11:13:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。