論文の概要: Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification
- arxiv url: http://arxiv.org/abs/2310.11210v1
- Date: Tue, 17 Oct 2023 12:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:59:16.905773
- Title: Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification
- Title(参考訳): テキストから画像への人物再同定のためのよりリッチな自己表現の学習
- Authors: Shuanglin Yan, Neng Dong, Jun Liu, Liyan Zhang, Jinhui Tang
- Abstract要約: TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
- 参考スコア(独自算出の注目度): 34.289949134802086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image person re-identification (TIReID) retrieves pedestrian images
of the same identity based on a query text. However, existing methods for
TIReID typically treat it as a one-to-one image-text matching problem, only
focusing on the relationship between image-text pairs within a view. The
many-to-many matching between image-text pairs across views under the same
identity is not taken into account, which is one of the main reasons for the
poor performance of existing methods. To this end, we propose a simple yet
effective framework, called LCR$^2$S, for modeling many-to-many correspondences
of the same identity by learning comprehensive representations for both
modalities from a novel perspective. We construct a support set for each image
(text) by using other images (texts) under the same identity and design a
multi-head attentional fusion module to fuse the image (text) and its support
set. The resulting enriched image and text features fuse information from
multiple views, which are aligned to train a "richer" TIReID model with
many-to-many correspondences. Since the support set is unavailable during
inference, we propose to distill the knowledge learned by the "richer" model
into a lightweight model for inference with a single image/text as input. The
lightweight model focuses on semantic association and reasoning of multi-view
information, which can generate a comprehensive representation containing
multi-view information with only a single-view input to perform accurate
text-to-image retrieval during inference. In particular, we use the intra-modal
features and inter-modal semantic relations of the "richer" model to supervise
the lightweight model to inherit its powerful capability. Extensive experiments
demonstrate the effectiveness of LCR$^2$S, and it also achieves new
state-of-the-art performance on three popular TIReID datasets.
- Abstract(参考訳): TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
しかし、TIReIDの既存の手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点を当てている。
同じアイデンティティの下でのビュー間の画像-テキストペアの多対多マッチングは考慮されていないため、既存のメソッドのパフォーマンスが低かった主な理由のひとつだ。
そこで本研究では,同一同一性の多対多対応を,新しい視点から両様相の包括的表現を学習することによりモデル化する,lcr$^2$sと呼ばれる単純かつ効果的な枠組みを提案する。
同一のアイデンティティの下で他の画像(テキスト)を用いて各画像(テキスト)に対するサポートセットを構築し、画像(テキスト)とそのサポートセットを融合させるマルチヘッド注意融合モジュールを設計する。
その結果、リッチな画像とテキストは複数のビューから情報を取り除き、多くの対多対応を持つよりリッチなTIReIDモデルをトレーニングするように整列する。
サポートセットは推論中に使用できないため、"リッチ"モデルによって学習された知識を、単一の画像/テキストを入力として推論のための軽量モデルに抽出する。
この軽量モデルはマルチビュー情報の意味的関連付けと推論に焦点を当てており、シングルビュー入力のみを含むマルチビュー情報を含む包括的な表現を生成して、推論中に正確なテキストから画像への検索を行うことができる。
特に、モーダル内特徴と「リッチ」モデルのモーダル間意味関係を用いて、軽量モデルを監督し、その強力な能力を継承する。
大規模な実験はLCR$^2$Sの有効性を示し、3つのTIReIDデータセット上で新しい最先端性能を実現する。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Image-Text Matching with Multi-View Attention [1.92360022393132]
画像テキストマッチングのための既存の2ストリームモデルでは、検索速度を確保しながら良好な性能を示す。
2ストリーム画像テキストマッチングMVAM(textbfMulti-textbfView textbfAttention textbfModel)のためのマルチビューアテンションアプローチを提案する。
MSCOCO と Flickr30K の実験結果から,提案モデルが既存モデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。