Fugu-MT 論文翻訳(概要): EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning

論文の概要: EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning

arxiv url: http://arxiv.org/abs/2410.17810v1
Date: Wed, 23 Oct 2024 12:12:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.441466
Title: EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning
Title（参考訳）: EntityCLIP:マルチモーダル・アテンティブ・コントラスト学習によるエンティティ中心の画像テキストマッチング
Authors: Yaxiong Wang, Yaxiong Wang, Lianwei Wu, Lechao Cheng, Zhun Zhong, Meng Wang,
Abstract要約: 本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
参考スコア（独自算出の注目度）: 38.30565103892611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in image-text matching have been notable, yet prevailing models predominantly cater to broad queries and struggle with accommodating fine-grained query intention. In this paper, we work towards the \textbf{E}ntity-centric \textbf{I}mage-\textbf{T}ext \textbf{M}atching (EITM), a task that the text and image involve specific entity-related information. The challenge of this task mainly lies in the larger semantic gap in entity association modeling, comparing with the general image-text matching problem.To narrow the huge semantic gap between the entity-centric text and the images, we take the fundamental CLIP as the backbone and devise a multimodal attentive contrastive learning framework to tam CLIP to adapt EITM problem, developing a model named EntityCLIP. The key of our multimodal attentive contrastive learning is to generate interpretive explanation text using Large Language Models (LLMs) as the bridge clues. In specific, we proceed by extracting explanatory text from off-the-shelf LLMs. This explanation text, coupled with the image and text, is then input into our specially crafted Multimodal Attentive Experts (MMAE) module, which effectively integrates explanation texts to narrow the gap of the entity-related text and image in a shared semantic space. Building on the enriched features derived from MMAE, we further design an effective Gated Integrative Image-text Matching (GI-ITM) strategy. The GI-ITM employs an adaptive gating mechanism to aggregate MMAE's features, subsequently applying image-text matching constraints to steer the alignment between the text and the image. Extensive experiments are conducted on three social media news benchmarks including N24News, VisualNews, and GoodNews, the results shows that our method surpasses the competition methods with a clear margin.
Abstract（参考訳）: 画像テキストマッチングの最近の進歩は目覚ましいが、一般的なモデルは、広範囲のクエリに対応し、きめ細かいクエリ意図の調整に苦慮している。本稿では,テキストと画像が特定のエンティティ関連情報を含むタスクである,textbf{E}ntity-centric \textbf{I}mage-\textbf{T}ext \textbf{M}atching (EITM)を提案する。この課題は,一般的な画像テキストマッチング問題と比較して,エンティティ・アソシエーション・モデリングにおける大きな意味的ギャップにある。エンティティ中心のテキストとイメージの巨大な意味的ギャップを狭めるために,基本的なCLIPをバックボーンとして捉え,EITM問題に適応するためのマルチモーダルな注意的コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。マルチモーダル注意的コントラスト学習の鍵は,Large Language Models (LLMs) をブリッジヒントとして解釈的説明文を生成することである。具体的には、市販のLCMから説明文を抽出する。この説明文は、画像とテキストを結合して特別に作られたMMAE(Multimodal Attentive Experts)モジュールに入力され、説明文を効果的に統合して、エンティティ関連のテキストと画像のギャップを共有意味空間内で狭める。 MMAEから派生したリッチな特徴に基づいて,GI-ITM(Gated Integrative Image-text Matching)戦略をさらに設計する。 GI-ITMは、MMAEの特徴を集約するために適応的なゲーティング機構を使用し、その後、テキストと画像のアライメントを制御するために画像テキストマッチングの制約を適用した。 N24News,VisualNews,GoodNewsの3つのソーシャルメディア・ニュース・ベンチマークで大規模な実験を行った結果,提案手法が競合手法をはるかに上回っていることが明らかとなった。

関連論文リスト

TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文参考訳（メタデータ） (2025-06-20T03:53:07Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文参考訳（メタデータ） (2024-04-05T17:25:17Z)
MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文参考訳（メタデータ） (2024-02-27T06:11:54Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文参考訳（メタデータ） (2023-04-03T05:07:49Z)
Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文参考訳（メタデータ） (2023-03-20T13:22:56Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。