論文の概要: ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions
- arxiv url: http://arxiv.org/abs/2405.19226v1
- Date: Wed, 29 May 2024 16:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:21:56.718120
- Title: ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions
- Title(参考訳): ContextBLIP:言語学的複雑な記述からのコントラスト画像検索のための2つのコンテキストアライメント
- Authors: Honglin Lin, Siyu Li, Guoshun Nan, Chaoyue Tang, Xueting Wang, Jingxin Xu, Rong Yankai, Zhili Zhou, Yutong Gao, Qimei Cui, Xiaofeng Tao,
- Abstract要約: 文脈記述(IRCD)からの画像検索は、言語学的に複雑なテキストに基づいて、最小限に対照的な候補のセット内で画像を特定することを目的としている。
本稿では,IRCDに挑戦する2つのコンテキストアライメント手法であるContextBLIPを提案する。
約7,500倍のパラメータを含むにもかかわらず、ContextBLIPはGPT-4Vと同等の結果が得られることが観察された。
- 参考スコア(独自算出の注目度): 17.934227561793474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval from contextual descriptions (IRCD) aims to identify an image within a set of minimally contrastive candidates based on linguistically complex text. Despite the success of VLMs, they still significantly lag behind human performance in IRCD. The main challenges lie in aligning key contextual cues in two modalities, where these subtle cues are concealed in tiny areas of multiple contrastive images and within the complex linguistics of textual descriptions. This motivates us to propose ContextBLIP, a simple yet effective method that relies on a doubly contextual alignment scheme for challenging IRCD. Specifically, 1) our model comprises a multi-scale adapter, a matching loss, and a text-guided masking loss. The adapter learns to capture fine-grained visual cues. The two losses enable iterative supervision for the adapter, gradually highlighting the focal patches of a single image to the key textual cues. We term such a way as intra-contextual alignment. 2) Then, ContextBLIP further employs an inter-context encoder to learn dependencies among candidates, facilitating alignment between the text to multiple images. We term this step as inter-contextual alignment. Consequently, the nuanced cues concealed in each modality can be effectively aligned. Experiments on two benchmarks show the superiority of our method. We observe that ContextBLIP can yield comparable results with GPT-4V, despite involving about 7,500 times fewer parameters.
- Abstract(参考訳): 文脈記述(IRCD)からの画像検索は、言語学的に複雑なテキストに基づいて、最小限に対照的な候補のセット内で画像を特定することを目的としている。
VLMの成功にもかかわらず、IRCDでの人間のパフォーマンスは著しく遅れている。
主な課題は、これらの微妙な手がかりを複数のコントラスト画像の小さな領域や、テキスト記述の複雑な言語学に隠蔽する2つのモードで重要な文脈的手がかりを整列させることである。
これは、IRCDに挑戦する2つのコンテキストアライメントスキームに依存する、シンプルで効果的な方法であるContextBLIPを提案する動機である。
具体的には
1)本モデルは,マルチスケールアダプタ,マッチング損失,テキスト誘導マスキング損失から構成される。
アダプターは、きめ細かい視覚的手がかりを捉えることを学ぶ。
この2つの損失は、アダプタの反復的な監視を可能にし、単一の画像の焦点パッチをキーテキストキューに徐々に強調する。
これを文脈内アライメント(contextual alignment)と呼ぶ。
2) ContextBLIPはさらにコンテキスト間エンコーダを用いて,候補間の依存関係を学習し,テキストから複数の画像へのアライメントを容易にする。
私たちはこのステップをコンテキスト間アライメントと呼びます。
これにより、各モダリティに隠されたニュアンスドキューを効果的に整列させることができる。
2つのベンチマーク実験により,本手法の優位性を示した。
我々は,約7,500倍のパラメータを含むにもかかわらず,ContextBLIPはGPT-4Vと同等の結果が得られることを観察した。
関連論文リスト
- SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion [7.708214550816408]
本稿では、英語のVisual Word Sense Disambiguation Taskに対するゼロショットアプローチについて述べる。
予備研究により、CLIPを用いたフレーズと候補画像のマッチングは、画像とテキストのペアの多対多性に悩まされていることがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
論文 参考訳(メタデータ) (2023-07-09T22:39:37Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Exploring Diverse In-Context Configurations for Image Captioning [39.54017777410428]
本稿では,様々な構成がコンテキスト学習における視覚言語(VL)に与える影響について検討する。
画像選択のための4つの戦略と、キャプション代入のための4つの戦略を考案し、画像キャプションのためのインテキスト画像-テキストペアを設定した。
我々の総合的な実験は2つの反直感的だが価値ある洞察をもたらし、VLの文脈内学習の特徴を浮き彫りにした。
論文 参考訳(メタデータ) (2023-05-24T06:52:47Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification [78.45528514468836]
ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
論文 参考訳(メタデータ) (2021-07-27T08:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。