論文の概要: BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification
- arxiv url: http://arxiv.org/abs/2309.04675v1
- Date: Sat, 9 Sep 2023 04:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:10:06.920152
- Title: BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification
- Title(参考訳): BiLMa: テキストに基づく人物再識別のための双方向局所マッチング
- Authors: Takuro Fujii and Shuhei Tarashima
- Abstract要約: テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。
TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
- 参考スコア(独自算出の注目度): 2.3931689873603603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person re-identification (TBPReID) aims to retrieve person images
represented by a given textual query. In this task, how to effectively align
images and texts globally and locally is a crucial challenge. Recent works have
obtained high performances by solving Masked Language Modeling (MLM) to align
image/text parts. However, they only performed uni-directional (i.e., from
image to text) local-matching, leaving room for improvement by introducing
opposite-directional (i.e., from text to image) local-matching. In this work,
we introduce Bidirectional Local-Matching (BiLMa) framework that jointly
optimize MLM and Masked Image Modeling (MIM) in TBPReID model training. With
this framework, our model is trained so as the labels of randomly masked both
image and text tokens are predicted by unmasked tokens. In addition, to narrow
the semantic gap between image and text in MIM, we propose Semantic MIM
(SemMIM), in which the labels of masked image tokens are automatically given by
a state-of-the-art human parser. Experimental results demonstrate that our
BiLMa framework with SemMIM achieves state-of-the-art Rank@1 and mAP scores on
three benchmarks.
- Abstract(参考訳): text-based person re-identification (tbpreid) は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
このタスクでは、画像とテキストをグローバルかつローカルに効果的にアライメントする方法が重要な課題である。
最近の研究は、マスケッド言語モデリング(MLM)を解くことで、画像/テキスト部分の整合性を高めている。
しかし、一方向(画像からテキストまで)の局所マッチングしか行わず、逆方向(テキストから画像まで)の局所マッチングを導入することで改善の余地を残している。
本稿では,TBPReIDモデルトレーニングにおいて,MLMとMasked Image Modeling(MIM)を協調的に最適化するBidirectional Local-Matching(BiLMa)フレームワークを提案する。
このフレームワークでは、画像とテキストトークンの両方をランダムにマスキングしたラベルが、未知のトークンによって予測されるようにモデルを訓練する。
また、MIMにおける画像とテキストのセマンティックギャップを狭めるために、マスク付き画像トークンのラベルが最先端のヒューマンパーサによって自動的に付与されるセマンティックMIM(Semantic MIM)を提案する。
実験の結果,SemMIMを用いたBiLMaフレームワークは3つのベンチマークで最先端の Rank@1 と mAP のスコアを達成できた。
関連論文リスト
- Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。