論文の概要: Position-guided Text Prompt for Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2212.09737v1
- Date: Mon, 19 Dec 2022 18:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:01:02.406185
- Title: Position-guided Text Prompt for Vision-Language Pre-training
- Title(参考訳): 視覚言語事前学習のための位置案内テキストプロンプト
- Authors: Alex Jinpeng Wang, Pan Zhou, Mike Zheng Shou, Shuicheng Yan
- Abstract要約: 本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
- 参考スコア(独自算出の注目度): 121.15494549650548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pre-Training (VLP) has shown promising capabilities to align
image and text pairs, facilitating a broad variety of cross-modal learning
tasks. However, we observe that VLP models often lack the visual
grounding/localization capability which is critical for many downstream tasks
such as visual reasoning. In this work, we propose a novel Position-guided Text
Prompt (PTP) paradigm to enhance the visual grounding ability of cross-modal
models trained with VLP. Specifically, in the VLP phase, PTP divides the image
into $N\times N$ blocks, and identifies the objects in each block through the
widely used object detector in VLP. It then reformulates the visual grounding
task into a fill-in-the-blank problem given a PTP by encouraging the model to
predict the objects in the given blocks or regress the blocks of a given
object, e.g. filling `P" or ``O" in aPTP ``The block P has a O". This mechanism
improves the visual grounding capability of VLP models and thus helps them
better handle various downstream tasks. By introducing PTP into several
state-of-the-art VLP frameworks, we observe consistently significant
improvements across representative cross-modal learning model architectures and
several benchmarks, e.g. zero-shot Flickr30K Retrieval (+4.8 in average
recall@1) for ViLT \cite{vilt} baseline, and COCO Captioning (+5.3 in CIDEr)
for SOTA BLIP \cite{blip} baseline. Moreover, PTP achieves comparable results
with object-detector based methods, and much faster inference speed since PTP
discards its object detector for inference while the later cannot. Our code and
pre-trained weight will be released at \url{https://github.com/sail-sg/ptp}.
- Abstract(参考訳): Vision-Language Pre-Training (VLP)は、画像とテキストのペアをコーディネートする有望な機能を示し、多種多様なクロスモーダル学習タスクを促進している。
しかし,VLPモデルには,視覚的推論などの下流タスクにおいて重要な視覚的接地/局所化機能が欠如している場合が多い。
本稿では,VLPで学習したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,PTP(Pight-Guided Text Prompt)パラダイムを提案する。
具体的には、VLPフェーズにおいて、PTPはイメージを$N\times N$ブロックに分割し、VLPで広く使用されているオブジェクト検出器を通して各ブロック内のオブジェクトを識別する。
次に、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロック(例えば、aPTP ``The block P has a O)に「P」や「`O」を埋めるなど)を回帰させることで、PTPが与えられた視覚的接地タスクを埋めるブランク問題に再構成する。
このメカニズムにより、VLPモデルの視覚的接地能力が向上し、様々な下流タスクをよりよく処理するのに役立つ。
いくつかの最先端のVLPフレームワークにPTPを導入することで、代表的なクロスモーダル学習モデルアーキテクチャと、VLTのゼロショットFlickr30K Retrieval (+4.8 in average recall@1)、SOTAのBLIP \cite{blip}ベースラインのCOCO Captioning (+5.3 in CIDEr)など、いくつかのベンチマークを一貫して改善する。
さらに、PTPはオブジェクト検出をベースとした手法と同等の結果を得ることができ、PTPはオブジェクト検出を中止し、後者は不可能である。
私たちのコードとトレーニング済みのウェイトは、 \url{https://github.com/sail-sg/ptp}でリリースされます。
関連論文リスト
- Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。