Fugu-MT 論文翻訳(概要): MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching

論文の概要: MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching

arxiv url: http://arxiv.org/abs/2402.17237v2
Date: Wed, 19 Feb 2025 06:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.601363
Title: MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching
Title（参考訳）: MVAM:微細な画像テキストマッチングのためのマルチビューアテンション手法
Authors: Wanqing Cui, Rui Cheng, Jiafeng Guo, Xueqi Cheng,
Abstract要約: 画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
参考スコア（独自算出の注目度）: 65.87255122130188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing two-stream models, such as CLIP, encode images and text through independent representations, showing good performance while ensuring retrieval speed, have attracted attention from industry and academia. However, the single representation often struggles to capture complex content fully. Such models may ignore fine-grained information during matching, resulting in suboptimal retrieval results. To overcome this limitation and enhance the performance of two-stream models, we propose a Multi-view Attention Method (MVAM) for image-text matching. This approach leverages diverse attention heads with unique view codes to learn multiple representations for images and text, which are then concatenated for matching. We also incorporate a diversity objective to explicitly encourage attention heads to focus on distinct aspects of the input data, capturing complementary fine-grained details. This diversity enables the model to represent image-text pairs from multiple perspectives, ensuring a more comprehensive understanding and alignment of critical content. Our method allows models to encode images and text from different perspectives and focus on more critical details, leading to better matching performance. Our experiments on MSCOCO and Flickr30K demonstrate enhancements over existing models, and further case studies reveal that different attention heads can focus on distinct content, achieving more comprehensive representations.
Abstract（参考訳）: CLIPのような既存の2ストリームモデルでは、画像とテキストを独立した表現でエンコードし、検索速度を確保しながら優れたパフォーマンスを示し、業界や学術から注目を集めている。しかし、単一の表現は、しばしば複雑なコンテンツを完全に捉えるのに苦労する。このようなモデルはマッチング中にきめ細かい情報を無視し、結果が最適以下の結果となる。この制限を克服し、2ストリームモデルの性能を向上させるために、画像テキストマッチングのためのマルチビュー注意法(MVAM)を提案する。このアプローチでは、ユニークなビューコードを持つ多様なアテンションヘッドを活用して、画像とテキストの複数の表現を学習し、マッチングのために結合する。また,入力データの異なる側面に注目するよう注意を喚起し,相補的な細部の詳細を捉えるために,多様性の目標も組み込んだ。この多様性により、モデルは複数の視点から画像とテキストのペアを表現することができ、重要なコンテンツのより包括的な理解とアライメントを確保することができる。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。 MSCOCO と Flickr30K に関する実験では,既存のモデルに対する改良が示されている。

関連論文リスト

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文参考訳（メタデータ） (2024-11-30T11:27:58Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文参考訳（メタデータ） (2023-10-17T12:39:16Z)
Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文参考訳（メタデータ） (2023-09-09T09:41:36Z)
Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文参考訳（メタデータ） (2023-04-03T05:07:49Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Multi-Granularity Cross-Modality Representation Learning for Named Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。本研究は,多粒性クロスモダリティ表現学習を導入する。実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文参考訳（メタデータ） (2022-10-19T15:14:55Z)
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。 MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-05T02:45:30Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文参考訳（メタデータ） (2020-03-31T05:56:59Z)
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文参考訳（メタデータ） (2020-02-23T23:58:04Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。