論文の概要: CREPE: Learnable Prompting With CLIP Improves Visual Relationship
Prediction
- arxiv url: http://arxiv.org/abs/2307.04838v1
- Date: Mon, 10 Jul 2023 18:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:22:43.642591
- Title: CREPE: Learnable Prompting With CLIP Improves Visual Relationship
Prediction
- Title(参考訳): CREPE: CLIPによる学習可能なプロンプトは、視覚的関係予測を改善する
- Authors: Rakshith Subramanyam, T. S. Jayram, Rushil Anirudh and Jayaraman J.
Thiagarajan
- Abstract要約: 視覚オブジェクト関係の予測において,視覚言語モデル(VLM),特にCLIPの可能性を検討する。
現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。
我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。
- 参考スコア(独自算出の注目度): 30.921126445357118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the potential of Vision-Language Models (VLMs),
specifically CLIP, in predicting visual object relationships, which involves
interpreting visual features from images into language-based relations. Current
state-of-the-art methods use complex graphical models that utilize language
cues and visual features to address this challenge. We hypothesize that the
strong language priors in CLIP embeddings can simplify these graphical models
paving for a simpler approach. We adopt the UVTransE relation prediction
framework, which learns the relation as a translational embedding with subject,
object, and union box embeddings from a scene. We systematically explore the
design of CLIP-based subject, object, and union-box representations within the
UVTransE framework and propose CREPE (CLIP Representation Enhanced Predicate
Estimation). CREPE utilizes text-based representations for all three bounding
boxes and introduces a novel contrastive training strategy to automatically
infer the text prompt for union-box. Our approach achieves state-of-the-art
performance in predicate estimation, mR@5 27.79, and mR@20 31.95 on the Visual
Genome benchmark, achieving a 15.3\% gain in performance over recent
state-of-the-art at mR@20. This work demonstrates CLIP's effectiveness in
object relation prediction and encourages further research on VLMs in this
challenging domain.
- Abstract(参考訳): 本稿では,視覚的特徴を視覚的特徴から言語的関係に解釈する,視覚的オブジェクト関係の予測における視覚言語モデル(VLM)の可能性について検討する。
現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。
CLIP埋め込みの強い言語は、より単純なアプローチのためにこれらのグラフィカルモデル舗装を単純化できると仮定する。
我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。
本稿では,UVTransEフレームワーク内でのCLIPに基づく主題,オブジェクト,およびユニオンボックス表現の設計を体系的に検討し,CREPE (CLIP Representation Enhanced Predicate Estimation) を提案する。
CREPEは3つのバウンディングボックスすべてにテキストベースの表現を使用し、ユニオンボックスのテキストプロンプトを自動的に推論する新しい対照的なトレーニング戦略を導入する。
本手法は,前述語推定法であるmr@5 27.79,mr@20 31.95を視覚ゲノムベンチマークで達成し,最新のmr@20での性能向上を15.3 %達成した。
この研究は、オブジェクト関係予測におけるCLIPの有効性を実証し、この挑戦領域におけるVLMのさらなる研究を奨励する。
関連論文リスト
- Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition [36.59116507158687]
STR(RCMSTR)のためのコントラスト学習とマスケ画像モデリングの統合フレームワークを提案する。
提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-18T01:11:47Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。