論文の概要: Image-Text Matching with Multi-View Attention
- arxiv url: http://arxiv.org/abs/2402.17237v1
- Date: Tue, 27 Feb 2024 06:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:32:34.659150
- Title: Image-Text Matching with Multi-View Attention
- Title(参考訳): マルチビューアテンションによる画像テキストマッチング
- Authors: Rui Cheng, Wanqing Cui
- Abstract要約: 画像テキストマッチングのための既存の2ストリームモデルでは、検索速度を確保しながら良好な性能を示す。
2ストリーム画像テキストマッチングMVAM(textbfMulti-textbfView textbfAttention textbfModel)のためのマルチビューアテンションアプローチを提案する。
MSCOCO と Flickr30K の実験結果から,提案モデルが既存モデルよりも改良されていることが示された。
- 参考スコア(独自算出の注目度): 1.92360022393132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing two-stream models for image-text matching show good performance
while ensuring retrieval speed and have received extensive attention from
industry and academia. These methods use a single representation to encode
image and text separately and get a matching score with cosine similarity or
the inner product of vectors. However, the performance of the two-stream model
is often sub-optimal. On the one hand, a single representation is challenging
to cover complex content comprehensively. On the other hand, in this framework
of lack of interaction, it is challenging to match multiple meanings which
leads to information being ignored. To address the problems mentioned above and
facilitate the performance of the two-stream model, we propose a multi-view
attention approach for two-stream image-text matching MVAM
(\textbf{M}ulti-\textbf{V}iew \textbf{A}ttention \textbf{M}odel). It first
learns multiple image and text representations by diverse attention heads with
different view codes. And then concatenate these representations into one for
matching. A diversity objective is also used to promote diversity between
attention heads. With this method, models are able to encode images and text
from different views and attend to more key points. So we can get
representations that contain more information. When doing retrieval tasks, the
matching scores between images and texts can be calculated from different
aspects, leading to better matching performance. Experiment results on MSCOCO
and Flickr30K show that our proposed model brings improvements over existing
models. Further case studies show that different attention heads can focus on
different contents and finally obtain a more comprehensive representation.
- Abstract(参考訳): 既存の画像テキストマッチングの2ストリームモデルでは,検索速度を確保しつつ良好な性能を示し,産業や学界から広く注目を集めている。
これらの方法は、画像とテキストを別々にエンコードする単一の表現を使用し、コサイン類似性やベクトルの内部積と一致するスコアを得る。
しかし、2ストリームモデルの性能はしばしば準最適である。
一方、単一の表現は複雑なコンテンツを包括的にカバーすることが難しい。
一方,インタラクションの欠如というこの枠組みでは,情報の無視につながる複数の意味を一致させることが困難である。
上記の問題に対処し、2ストリームモデルの性能を向上させるために、2ストリーム画像テキストマッチングMVAM(\textbf{M}ulti-\textbf{V}iew \textbf{A}ttention \textbf{M}odel)を提案する。
まず、異なるビューコードを持つ様々な注意ヘッドによって、複数の画像とテキストの表現を学習する。
そして、これらの表現をマッチングのために1つにまとめる。
多様性の目標は、アテンションヘッド間の多様性を促進するためにも用いられる。
この方法で、モデルは異なるビューから画像やテキストをエンコードし、より重要なポイントに到達することができる。
より多くの情報を含む表現を得ることができます
検索タスクを行う場合、画像とテキストのマッチングスコアを異なる側面から計算することができ、マッチングパフォーマンスが向上する。
MSCOCO と Flickr30K の実験結果から,提案モデルが既存モデルよりも改良されていることが示された。
さらなるケーススタディでは、異なる注意頭が異なるコンテンツに集中でき、最終的により包括的な表現が得られることが示されている。
関連論文リスト
- Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。