論文の概要: PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language
Pre-training via Prompting
- arxiv url: http://arxiv.org/abs/2307.07341v1
- Date: Fri, 14 Jul 2023 13:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:53:12.259453
- Title: PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language
Pre-training via Prompting
- Title(参考訳): pitl:プロンプトによる視覚言語事前学習によるクロスモーダル検索
- Authors: Zixin Guo, Tzu-Jui Julius Wang, Selen Pehlivan, Abduljalil Radman,
Jorma Laaksonen
- Abstract要約: 画像記述のための大規模言語モデル(LLM)から知識を誘導するPrompts-in-The-Loop(PiTL)を提案する。
In14Kは9M画像の新しいVLデータセットであり、ImageNet21KとPiTLから14Kカテゴリの1M記述である。
- 参考スコア(独自算出の注目度): 8.784049710686629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language (VL) Pre-training (VLP) has shown to well generalize VL
models over a wide range of VL downstream tasks, especially for cross-modal
retrieval. However, it hinges on a huge amount of image-text pairs, which
requires tedious and costly curation. On the contrary, weakly-supervised VLP
(W-VLP) explores means with object tags generated by a pre-trained object
detector (OD) from images. Yet, they still require paired information, i.e.
images and object-level annotations, as supervision to train an OD.
To further reduce the amount of supervision, we propose Prompts-in-The-Loop
(PiTL) that prompts knowledge from large language models (LLMs) to describe
images. Concretely, given a category label of an image, e.g. refinery, the
knowledge, e.g. a refinery could be seen with large storage tanks, pipework,
and ..., extracted by LLMs is used as the language counterpart. The knowledge
supplements, e.g. the common relations among entities most likely appearing in
a scene. We create IN14K, a new VL dataset of 9M images and 1M descriptions of
14K categories from ImageNet21K with PiTL. Empirically, the VL models
pre-trained with PiTL-generated pairs are strongly favored over other W-VLP
works on image-to-text (I2T) and text-to-image (T2I) retrieval tasks, with less
supervision. The results reveal the effectiveness of PiTL-generated pairs for
VLP.
- Abstract(参考訳): 視覚言語 (VL) 事前学習 (VLP) は、特にクロスモーダル検索において、広範囲のVL下流タスクにおいて、VLモデルを適切に一般化することを示した。
しかし、大量の画像とテキストのペアを頼りにしており、面倒で高価なキュレーションが必要です。
逆に、弱い教師付きVLP(W-VLP)は、画像から事前訓練対象検出器(OD)によって生成されたオブジェクトタグで手段を探索する。
しかし、ODを訓練するためには、イメージやオブジェクトレベルのアノテーションといったペア情報が必要である。
画像記述のために,大規模言語モデル (LLM) から知識を誘導する Prompts-in-The-Loop (PiTL) を提案する。
具体的には、例えば製油所のような画像のカテゴリラベルが与えられた場合、LLMによって抽出された大きな貯蔵タンクやパイプワーク、...といった知識が言語として使用される。
知識は、例えば、シーンに現れる可能性が高いエンティティ間の共通関係を補う。
In14Kは9M画像の新しいVLデータセットであり、ImageNet21KとPiTLから14Kカテゴリの1M記述である。
実証的に、PiTL生成ペアで事前訓練されたVLモデルは、イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)検索タスクにおける他のW-VLP作業よりも、監督の少ないものに強く好まれる。
その結果,VLPに対するPiTL生成ペアの有効性が示された。
関連論文リスト
- Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。