論文の概要: BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification
- arxiv url: http://arxiv.org/abs/2309.04675v1
- Date: Sat, 9 Sep 2023 04:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:10:06.920152
- Title: BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification
- Title(参考訳): BiLMa: テキストに基づく人物再識別のための双方向局所マッチング
- Authors: Takuro Fujii and Shuhei Tarashima
- Abstract要約: テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。
TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
- 参考スコア(独自算出の注目度): 2.3931689873603603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person re-identification (TBPReID) aims to retrieve person images
represented by a given textual query. In this task, how to effectively align
images and texts globally and locally is a crucial challenge. Recent works have
obtained high performances by solving Masked Language Modeling (MLM) to align
image/text parts. However, they only performed uni-directional (i.e., from
image to text) local-matching, leaving room for improvement by introducing
opposite-directional (i.e., from text to image) local-matching. In this work,
we introduce Bidirectional Local-Matching (BiLMa) framework that jointly
optimize MLM and Masked Image Modeling (MIM) in TBPReID model training. With
this framework, our model is trained so as the labels of randomly masked both
image and text tokens are predicted by unmasked tokens. In addition, to narrow
the semantic gap between image and text in MIM, we propose Semantic MIM
(SemMIM), in which the labels of masked image tokens are automatically given by
a state-of-the-art human parser. Experimental results demonstrate that our
BiLMa framework with SemMIM achieves state-of-the-art Rank@1 and mAP scores on
three benchmarks.
- Abstract(参考訳): text-based person re-identification (tbpreid) は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
このタスクでは、画像とテキストをグローバルかつローカルに効果的にアライメントする方法が重要な課題である。
最近の研究は、マスケッド言語モデリング(MLM)を解くことで、画像/テキスト部分の整合性を高めている。
しかし、一方向(画像からテキストまで)の局所マッチングしか行わず、逆方向(テキストから画像まで)の局所マッチングを導入することで改善の余地を残している。
本稿では,TBPReIDモデルトレーニングにおいて,MLMとMasked Image Modeling(MIM)を協調的に最適化するBidirectional Local-Matching(BiLMa)フレームワークを提案する。
このフレームワークでは、画像とテキストトークンの両方をランダムにマスキングしたラベルが、未知のトークンによって予測されるようにモデルを訓練する。
また、MIMにおける画像とテキストのセマンティックギャップを狭めるために、マスク付き画像トークンのラベルが最先端のヒューマンパーサによって自動的に付与されるセマンティックMIM(Semantic MIM)を提案する。
実験の結果,SemMIMを用いたBiLMaフレームワークは3つのベンチマークで最先端の Rank@1 と mAP のスコアを達成できた。
関連論文リスト
- Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。
CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-06-16T08:37:24Z) - SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。
ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。
我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文 参考訳(メタデータ) (2024-04-01T15:01:38Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。