論文の概要: See Finer, See More: Implicit Modality Alignment for Text-based Person
Retrieval
- arxiv url: http://arxiv.org/abs/2208.08608v1
- Date: Thu, 18 Aug 2022 03:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:41:46.203176
- Title: See Finer, See More: Implicit Modality Alignment for Text-based Person
Retrieval
- Title(参考訳): Finer, See more: Implicit Modality Alignment for Text-based Person Retrieval
- Authors: Xiujun Shu, Wei Wen, Haoqian Wu, Keyu Chen, Yiran Song, Ruizhi Qiao,
Bo Ren, Xiao Wang
- Abstract要約: テキストに基づく人物検索のためのImplicit Visual-Textual (IVT) フレームワークを提案する。
IVTは単一のネットワークを用いて両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
- 参考スコア(独自算出の注目度): 19.687373765453643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person retrieval aims to find the query person based on a textual
description. The key is to learn a common latent space mapping between
visual-textual modalities. To achieve this goal, existing works employ
segmentation to obtain explicitly cross-modal alignments or utilize attention
to explore salient alignments. These methods have two shortcomings: 1) Labeling
cross-modal alignments are time-consuming. 2) Attention methods can explore
salient cross-modal alignments but may ignore some subtle and valuable pairs.
To relieve these issues, we introduce an Implicit Visual-Textual (IVT)
framework for text-based person retrieval. Different from previous models, IVT
utilizes a single network to learn representation for both modalities, which
contributes to the visual-textual interaction. To explore the fine-grained
alignment, we further propose two implicit semantic alignment paradigms:
multi-level alignment (MLA) and bidirectional mask modeling (BMM). The MLA
module explores finer matching at sentence, phrase, and word levels, while the
BMM module aims to mine \textbf{more} semantic alignments between visual and
textual modalities. Extensive experiments are carried out to evaluate the
proposed IVT on public datasets, i.e., CUHK-PEDES, RSTPReID, and ICFG-PEDES.
Even without explicit body part alignment, our approach still achieves
state-of-the-art performance. Code is available at:
https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.
- Abstract(参考訳): テキストに基づく人物検索は,テキスト記述に基づいて質問者を見つけることを目的としている。
鍵となるのは、視覚-テクスト間の共通潜時空間マッピングを学ぶことである。
この目的を達成するために、既存の作品ではセグメンテーションを用いて、明確に横断的なアライメントを得るか、注意を払ってサリアントアライメントを探索する。
これらの方法には2つの欠点があります
1) クロスモーダルアライメントのラベル付けは時間を要する。
2) 注意法は, 微妙で価値あるペアを無視することもあるが, 健全な横方向のアライメントを探索することができる。
これらの問題を解消するために、テキストベースの人物検索のためのImplicit Visual-Textual (IVT)フレームワークを導入する。
従来のモデルと異なり、IVTは単一のネットワークを使って両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
さらに,多レベルアライメント(MLA)と双方向マスクモデリング(BMM)の2つの暗黙的セマンティックアライメントパラダイムを提案する。
MLAモジュールは文、フレーズ、単語レベルでのより細かいマッチングを探索し、BMMモジュールは視覚とテキストのモダリティ間の意味的アライメントを抽出することを目的としている。
提案したIVT(CUHK-PEDES, RSTPReID, ICFG-PEDES)の評価実験を行った。
明示的なボディパートアライメントがなくても,このアプローチは最先端のパフォーマンスを実現します。
コードは、https://github.com/TencentYoutuResearch/PersonRetrieval-IVTで入手できる。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。