Fugu-MT 論文翻訳(概要): BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification

論文の概要: BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification

arxiv url: http://arxiv.org/abs/2309.04675v1
Date: Sat, 9 Sep 2023 04:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 17:10:06.920152
Title: BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification
Title（参考訳）: BiLMa: テキストに基づく人物再識別のための双方向局所マッチング
Authors: Takuro Fujii and Shuhei Tarashima
Abstract要約: テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。 TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
参考スコア（独自算出の注目度）: 2.3931689873603603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based person re-identification (TBPReID) aims to retrieve person images represented by a given textual query. In this task, how to effectively align images and texts globally and locally is a crucial challenge. Recent works have obtained high performances by solving Masked Language Modeling (MLM) to align image/text parts. However, they only performed uni-directional (i.e., from image to text) local-matching, leaving room for improvement by introducing opposite-directional (i.e., from text to image) local-matching. In this work, we introduce Bidirectional Local-Matching (BiLMa) framework that jointly optimize MLM and Masked Image Modeling (MIM) in TBPReID model training. With this framework, our model is trained so as the labels of randomly masked both image and text tokens are predicted by unmasked tokens. In addition, to narrow the semantic gap between image and text in MIM, we propose Semantic MIM (SemMIM), in which the labels of masked image tokens are automatically given by a state-of-the-art human parser. Experimental results demonstrate that our BiLMa framework with SemMIM achieves state-of-the-art Rank@1 and mAP scores on three benchmarks.
Abstract（参考訳）: text-based person re-identification (tbpreid) は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。このタスクでは、画像とテキストをグローバルかつローカルに効果的にアライメントする方法が重要な課題である。最近の研究は、マスケッド言語モデリング(MLM)を解くことで、画像/テキスト部分の整合性を高めている。しかし、一方向(画像からテキストまで)の局所マッチングしか行わず、逆方向(テキストから画像まで)の局所マッチングを導入することで改善の余地を残している。本稿では,TBPReIDモデルトレーニングにおいて,MLMとMasked Image Modeling(MIM)を協調的に最適化するBidirectional Local-Matching(BiLMa)フレームワークを提案する。このフレームワークでは、画像とテキストトークンの両方をランダムにマスキングしたラベルが、未知のトークンによって予測されるようにモデルを訓練する。また、MIMにおける画像とテキストのセマンティックギャップを狭めるために、マスク付き画像トークンのラベルが最先端のヒューマンパーサによって自動的に付与されるセマンティックMIM(Semantic MIM)を提案する。実験の結果,SemMIMを用いたBiLMaフレームワークは3つのベンチマークで最先端の Rank@1 と mAP のスコアを達成できた。

関連論文リスト

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-06-28T12:19:49Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies [3.7498611358320733]
合成画像は実世界のシナリオを忠実に再現することができないため、複雑な実世界のイメージを扱う際には性能の相違が生じる。近年の自己教師付き学習技術,特にコントラスト学習とマスク付き画像モデリングは,未ラベルの実際のテキスト画像を利用して領域ギャップを狭めている。我々のMMS(Multi-Masking Strategy)は、ランダムパッチ、ブロックワイズ、スパンマスクをMIMフレームに統合し、低レベルのテキスト表現と高レベルのテキスト表現を共同で学習する。
論文参考訳（メタデータ） (2025-05-11T05:52:55Z)
Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文参考訳（メタデータ） (2024-12-19T17:51:49Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。 CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文参考訳（メタデータ） (2024-06-16T08:37:24Z)
SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文参考訳（メタデータ） (2024-04-01T15:01:38Z)
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文参考訳（メタデータ） (2024-03-01T03:25:58Z)
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。 BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文参考訳（メタデータ） (2023-11-29T07:33:38Z)
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。 TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文参考訳（メタデータ） (2023-10-27T10:52:50Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文参考訳（メタデータ） (2022-04-18T16:19:52Z)
Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文参考訳（メタデータ） (2021-09-05T11:27:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。