Fugu-MT 論文翻訳(概要): Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search

論文の概要: Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search

arxiv url: http://arxiv.org/abs/2412.15106v1
Date: Thu, 19 Dec 2024 17:51:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.237359
Title: Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search
Title（参考訳）: 注目すべき場所を知る:テキストによる人物検索のための注意誘導アライメント
Authors: Lei Tan, Weihao Li, Pingyang Dai, Jie Chen, Liujuan Cao, Rongrong Ji,
Abstract要約: 本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
参考スコア（独自算出の注目度）: 64.15205542003056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of Text-Based Person Search (TBPS), mainstream methods aim to explore more efficient interaction frameworks between text descriptions and visual data. However, recent approaches encounter two principal challenges. Firstly, the widely used random-based Masked Language Modeling (MLM) considers all the words in the text equally during training. However, massive semantically vacuous words ('with', 'the', etc.) be masked fail to contribute efficient interaction in the cross-modal MLM and hampers the representation alignment. Secondly, manual descriptions in TBPS datasets are tedious and inevitably contain several inaccuracies. To address these issues, we introduce an Attention-Guided Alignment (AGA) framework featuring two innovative components: Attention-Guided Mask (AGM) Modeling and Text Enrichment Module (TEM). AGM dynamically masks semantically meaningful words by aggregating the attention weight derived from the text encoding process, thereby cross-modal MLM can capture information related to the masked word from text context and images and align their representations. Meanwhile, TEM alleviates low-quality representations caused by repetitive and erroneous text descriptions by replacing those semantically meaningful words with MLM's prediction. It not only enriches text descriptions but also prevents overfitting. Extensive experiments across three challenging benchmarks demonstrate the effectiveness of our AGA, achieving new state-of-the-art results with Rank-1 accuracy reaching 78.36%, 67.31%, and 67.4% on CUHK-PEDES, ICFG-PEDES, and RSTPReid, respectively.
Abstract（参考訳）: テキストベースパーソナライズ検索(TBPS)の領域では,テキスト記述と視覚データ間のより効率的なインタラクションフレームワークの探索が主流となっている。しかし、最近のアプローチは2つの主要な課題に直面している。第一に、広く使われているランダムベースマスケッド言語モデリング(MLM)は、トレーニング中にテキスト中のすべての単語を等しく考慮する。しかし、巨大な意味論的に空白な単語(with、the等)は、モーダルなMLMにおける効率的な相互作用に寄与せず、表現アライメントを妨害する。第2に、TBPSデータセットのマニュアル記述は退屈で、必然的にいくつかの不正確さを含んでいる。このような問題に対処するために,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,革新的な2つのコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介した。 AGMは、テキストエンコーディングプロセスから得られる注意重みを集約することにより、意味のある単語を動的にマスキングするので、クロスモーダルMLMは、テキストコンテキストや画像からマスクされた単語に関連する情報を捕捉し、それらの表現を整列させることができる。一方、TEMは、これらの意味論的意味のある単語をMLMの予測に置き換えることで、反復的および誤文記述による低品質表現を緩和する。テキスト記述を豊かにするだけでなく、過度に適合するのを防ぐ。 3つの挑戦的なベンチマークによる大規模な実験は、我々のAGAの有効性を実証し、それぞれCUHK-PEDES、ICFG-PEDES、RSTPReidのランク1の精度が78.36%、67.31%、67.4%に達した。

関連論文リスト

Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文参考訳（メタデータ） (2025-02-28T04:15:36Z)
EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文参考訳（メタデータ） (2024-10-23T12:12:56Z)
MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。 MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文参考訳（メタデータ） (2024-07-31T14:56:42Z)
MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。 CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文参考訳（メタデータ） (2024-07-05T06:44:43Z)
SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文参考訳（メタデータ） (2024-04-01T15:01:38Z)
Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文参考訳（メタデータ） (2024-02-21T09:22:45Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification [2.3931689873603603]
テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。 TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
論文参考訳（メタデータ） (2023-09-09T04:01:24Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval [19.687373765453643]
テキストに基づく人物検索のためのImplicit Visual-Textual (IVT) フレームワークを提案する。 IVTは単一のネットワークを用いて両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
論文参考訳（メタデータ） (2022-08-18T03:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。