論文の概要: See Finer, See More: Implicit Modality Alignment for Text-based Person
Retrieval
- arxiv url: http://arxiv.org/abs/2208.08608v1
- Date: Thu, 18 Aug 2022 03:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:41:46.203176
- Title: See Finer, See More: Implicit Modality Alignment for Text-based Person
Retrieval
- Title(参考訳): Finer, See more: Implicit Modality Alignment for Text-based Person Retrieval
- Authors: Xiujun Shu, Wei Wen, Haoqian Wu, Keyu Chen, Yiran Song, Ruizhi Qiao,
Bo Ren, Xiao Wang
- Abstract要約: テキストに基づく人物検索のためのImplicit Visual-Textual (IVT) フレームワークを提案する。
IVTは単一のネットワークを用いて両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
- 参考スコア(独自算出の注目度): 19.687373765453643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person retrieval aims to find the query person based on a textual
description. The key is to learn a common latent space mapping between
visual-textual modalities. To achieve this goal, existing works employ
segmentation to obtain explicitly cross-modal alignments or utilize attention
to explore salient alignments. These methods have two shortcomings: 1) Labeling
cross-modal alignments are time-consuming. 2) Attention methods can explore
salient cross-modal alignments but may ignore some subtle and valuable pairs.
To relieve these issues, we introduce an Implicit Visual-Textual (IVT)
framework for text-based person retrieval. Different from previous models, IVT
utilizes a single network to learn representation for both modalities, which
contributes to the visual-textual interaction. To explore the fine-grained
alignment, we further propose two implicit semantic alignment paradigms:
multi-level alignment (MLA) and bidirectional mask modeling (BMM). The MLA
module explores finer matching at sentence, phrase, and word levels, while the
BMM module aims to mine \textbf{more} semantic alignments between visual and
textual modalities. Extensive experiments are carried out to evaluate the
proposed IVT on public datasets, i.e., CUHK-PEDES, RSTPReID, and ICFG-PEDES.
Even without explicit body part alignment, our approach still achieves
state-of-the-art performance. Code is available at:
https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.
- Abstract(参考訳): テキストに基づく人物検索は,テキスト記述に基づいて質問者を見つけることを目的としている。
鍵となるのは、視覚-テクスト間の共通潜時空間マッピングを学ぶことである。
この目的を達成するために、既存の作品ではセグメンテーションを用いて、明確に横断的なアライメントを得るか、注意を払ってサリアントアライメントを探索する。
これらの方法には2つの欠点があります
1) クロスモーダルアライメントのラベル付けは時間を要する。
2) 注意法は, 微妙で価値あるペアを無視することもあるが, 健全な横方向のアライメントを探索することができる。
これらの問題を解消するために、テキストベースの人物検索のためのImplicit Visual-Textual (IVT)フレームワークを導入する。
従来のモデルと異なり、IVTは単一のネットワークを使って両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
さらに,多レベルアライメント(MLA)と双方向マスクモデリング(BMM)の2つの暗黙的セマンティックアライメントパラダイムを提案する。
MLAモジュールは文、フレーズ、単語レベルでのより細かいマッチングを探索し、BMMモジュールは視覚とテキストのモダリティ間の意味的アライメントを抽出することを目的としている。
提案したIVT(CUHK-PEDES, RSTPReID, ICFG-PEDES)の評価実験を行った。
明示的なボディパートアライメントがなくても,このアプローチは最先端のパフォーマンスを実現します。
コードは、https://github.com/TencentYoutuResearch/PersonRetrieval-IVTで入手できる。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。
既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。
我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:06:39Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。