論文の概要: Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification
- arxiv url: http://arxiv.org/abs/2207.07802v1
- Date: Sat, 16 Jul 2022 01:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:26:47.356852
- Title: Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification
- Title(参考訳): 画像間テキスト認識のための粒度統一表現の学習
- Authors: Zhiyin Shao, Xinyu Zhang, Meng Fang, Zhifeng Lin, Jian Wang, Changxing
Ding
- Abstract要約: ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.04254233799353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image person re-identification (ReID) aims to search for pedestrian
images of an interested identity via textual descriptions. It is challenging
due to both rich intra-modal variations and significant inter-modal gaps.
Existing works usually ignore the difference in feature granularity between the
two modalities, i.e., the visual features are usually fine-grained while
textual features are coarse, which is mainly responsible for the large
inter-modal gaps. In this paper, we propose an end-to-end framework based on
transformers to learn granularity-unified representations for both modalities,
denoted as LGUR. LGUR framework contains two modules: a Dictionary-based
Granularity Alignment (DGA) module and a Prototype-based Granularity
Unification (PGU) module. In DGA, in order to align the granularities of two
modalities, we introduce a Multi-modality Shared Dictionary (MSD) to
reconstruct both visual and textual features. Besides, DGA has two important
factors, i.e., the cross-modality guidance and the foreground-centric
reconstruction, to facilitate the optimization of MSD. In PGU, we adopt a set
of shared and learnable prototypes as the queries to extract diverse and
semantically aligned features for both modalities in the granularity-unified
feature space, which further promotes the ReID performance. Comprehensive
experiments show that our LGUR consistently outperforms state-of-the-arts by
large margins on both CUHK-PEDES and ICFG-PEDES datasets. Code will be released
at https://github.com/ZhiyinShao-H/LGUR.
- Abstract(参考訳): ReID(text-to-image person re-identification)は、関心のある人物の歩行者画像の検索を目的としたテキスト記述である。
これは、豊富なモーダル内変異と重要なモーダル間ギャップの両方によって困難である。
既存の作品は通常、2つのモダリティ間の特徴粒度の違いを無視する。つまり、視覚的特徴は通常細粒度であるが、テクスト的特徴は粗いものである。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
LGURフレームワークには、Dictionary-based Granularity Alignment (DGA)モジュールとPrototype-based Granularity Unification (PGU)モジュールの2つのモジュールが含まれている。
DGAでは,2つのモードの粒度を調整するために,視覚的特徴とテキスト的特徴の両方を再構成する多モード共有辞書(MSD)を導入する。
さらにDGAは,MSDの最適化を容易にするために,モダリティガイダンスと前景中心の再構築という2つの重要な要素を有している。
pguでは、共有および学習可能なプロトタイプをクエリとして採用し、粒度統一特徴空間における2つのモダリティの多様かつ意味的に整合した特徴を抽出し、さらにreid性能を向上させる。
総合的な実験により、LGURはCUHK-PEDESとICFG-PEDESの両方のデータセットにおいて、最先端のデータを一貫して上回ります。
コードはhttps://github.com/ZhiyinShao-H/LGURで公開される。
関連論文リスト
- Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition [28.136662420053568]
Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:54:33Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。