論文の概要: EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning
- arxiv url: http://arxiv.org/abs/2410.17810v1
- Date: Wed, 23 Oct 2024 12:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:46.263966
- Title: EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning
- Title(参考訳): EntityCLIP:マルチモーダル・アテンティブ・コントラスト学習によるエンティティ中心の画像テキストマッチング
- Authors: Yaxiong Wang, Yaxiong Wang, Lianwei Wu, Lechao Cheng, Zhun Zhong, Meng Wang,
- Abstract要約: 本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
- 参考スコア(独自算出の注目度): 38.30565103892611
- License:
- Abstract: Recent advancements in image-text matching have been notable, yet prevailing models predominantly cater to broad queries and struggle with accommodating fine-grained query intention. In this paper, we work towards the \textbf{E}ntity-centric \textbf{I}mage-\textbf{T}ext \textbf{M}atching (EITM), a task that the text and image involve specific entity-related information. The challenge of this task mainly lies in the larger semantic gap in entity association modeling, comparing with the general image-text matching problem.To narrow the huge semantic gap between the entity-centric text and the images, we take the fundamental CLIP as the backbone and devise a multimodal attentive contrastive learning framework to tam CLIP to adapt EITM problem, developing a model named EntityCLIP. The key of our multimodal attentive contrastive learning is to generate interpretive explanation text using Large Language Models (LLMs) as the bridge clues. In specific, we proceed by extracting explanatory text from off-the-shelf LLMs. This explanation text, coupled with the image and text, is then input into our specially crafted Multimodal Attentive Experts (MMAE) module, which effectively integrates explanation texts to narrow the gap of the entity-related text and image in a shared semantic space. Building on the enriched features derived from MMAE, we further design an effective Gated Integrative Image-text Matching (GI-ITM) strategy. The GI-ITM employs an adaptive gating mechanism to aggregate MMAE's features, subsequently applying image-text matching constraints to steer the alignment between the text and the image. Extensive experiments are conducted on three social media news benchmarks including N24News, VisualNews, and GoodNews, the results shows that our method surpasses the competition methods with a clear margin.
- Abstract(参考訳): 画像テキストマッチングの最近の進歩は目覚ましいが、一般的なモデルは、広範囲のクエリに対応し、きめ細かいクエリ意図の調整に苦慮している。
本稿では,テキストと画像が特定のエンティティ関連情報を含むタスクである,textbf{E}ntity-centric \textbf{I}mage-\textbf{T}ext \textbf{M}atching (EITM)を提案する。
この課題は,一般的な画像テキストマッチング問題と比較して,エンティティ・アソシエーション・モデリングにおける大きな意味的ギャップにある。エンティティ中心のテキストとイメージの巨大な意味的ギャップを狭めるために,基本的なCLIPをバックボーンとして捉え,EITM問題に適応するためのマルチモーダルな注意的コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
マルチモーダル注意的コントラスト学習の鍵は,Large Language Models (LLMs) をブリッジヒントとして解釈的説明文を生成することである。
具体的には、市販のLCMから説明文を抽出する。
この説明文は、画像とテキストを結合して特別に作られたMMAE(Multimodal Attentive Experts)モジュールに入力され、説明文を効果的に統合して、エンティティ関連のテキストと画像のギャップを共有意味空間内で狭める。
MMAEから派生したリッチな特徴に基づいて,GI-ITM(Gated Integrative Image-text Matching)戦略をさらに設計する。
GI-ITMは、MMAEの特徴を集約するために適応的なゲーティング機構を使用し、その後、テキストと画像のアライメントを制御するために画像テキストマッチングの制約を適用した。
N24News,VisualNews,GoodNewsの3つのソーシャルメディア・ニュース・ベンチマークで大規模な実験を行った結果,提案手法が競合手法をはるかに上回っていることが明らかとなった。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。