論文の概要: Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary
Visual Recognition
- arxiv url: http://arxiv.org/abs/2304.04704v2
- Date: Fri, 6 Oct 2023 18:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:47:30.056825
- Title: Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary
Visual Recognition
- Title(参考訳): Open-Vocabulary Visual Recognitionのための20のクラスによるプロンプト事前学習
- Authors: Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li,
Alex Smola, Xu Sun
- Abstract要約: POMPは、視覚言語計算モデルのための即時事前学習手法である。
メモリと効率が良いため、POMPは学習したプロンプトによって、豊富な視覚概念のセットに意味情報を凝縮することを可能にする。
一度事前訓練すると、強い伝達能力を持つプロンプトは、様々な視覚認識タスクに直接接続できる。
- 参考スコア(独自算出の注目度): 48.556096839557895
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work proposes POMP, a prompt pre-training method for vision-language
models. Being memory and computation efficient, POMP enables the learned prompt
to condense semantic information for a rich set of visual concepts with over
twenty-thousand classes. Once pre-trained, the prompt with a strong
transferable ability can be directly plugged into a variety of visual
recognition tasks including image classification, semantic segmentation, and
object detection, to boost recognition performances in a zero-shot manner.
Empirical evaluation shows that POMP achieves state-of-the-art performances on
21 datasets, e.g., 67.0% average accuracy on 10 classification datasets (+3.1%
compared to CoOp) and 84.4 hIoU on open-vocabulary Pascal VOC segmentation
(+6.9 compared to ZSSeg). Our code is available at
https://github.com/amazon-science/prompt-pretraining.
- Abstract(参考訳): 本稿では,視覚言語モデルの事前学習手法であるPOMPを提案する。
メモリと計算の効率が良いため、POMPは学習したプロンプトによって、20以上のクラスでリッチな視覚概念の集合に意味情報を凝縮することができる。
事前学習すると、強い転送能力を持つプロンプトを画像分類、意味セグメンテーション、オブジェクト検出など様々な視覚認識タスクに直接接続し、ゼロショット方式で認識性能を向上させることができる。
例えば、10の分類データセット(coopと比較して+3.1%)と84.4 hiou(zssegと比較して+6.9)で67.0%の平均精度を達成している。
私たちのコードはhttps://github.com/amazon-science/prompt-pretrainingで利用可能です。
関連論文リスト
- IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Unleashing the Power of Visual Prompting At the Pixel Level [28.50538386115006]
本研究では,プロンプトと画像の調整戦略が重要であることを示すとともに,適切に縮小された画像にプロンプトを巻き付ける方法が有効であることを示す。
CLIPモデルを用いて、我々のプロンプト手法は、12の一般的な分類データセットの平均精度を82.8%に設定する。
論文 参考訳(メタデータ) (2022-12-20T18:57:06Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。