論文の概要: DSSL: Deep Surroundings-person Separation Learning for Text-based Person
Retrieval
- arxiv url: http://arxiv.org/abs/2109.05534v1
- Date: Sun, 12 Sep 2021 15:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:38:12.721117
- Title: DSSL: Deep Surroundings-person Separation Learning for Text-based Person
Retrieval
- Title(参考訳): DSSL:テキストベースの人物検索のための深層人物分離学習
- Authors: Aichun Zhu, Zijie Wang, Yifeng Li, Xili Wan, Jing Jin, Tian Wang,
Fangqiang Hu, Gang Hua
- Abstract要約: 本稿では,Deep Surroundings-person Separation Learning(DSSL)モデルを提案する。
周囲の分離・融合機構は、正確かつ効果的な周囲の分離を実現する上で重要な役割を担っている。
CUHK-PEDES上で提案したDSSLの評価実験を行った。
- 参考スコア(独自算出の注目度): 40.70100506088116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many previous methods on text-based person retrieval tasks are devoted to
learning a latent common space mapping, with the purpose of extracting
modality-invariant features from both visual and textual modality.
Nevertheless, due to the complexity of high-dimensional data, the unconstrained
mapping paradigms are not able to properly catch discriminative clues about the
corresponding person while drop the misaligned information. Intuitively, the
information contained in visual data can be divided into person information
(PI) and surroundings information (SI), which are mutually exclusive from each
other. To this end, we propose a novel Deep Surroundings-person Separation
Learning (DSSL) model in this paper to effectively extract and match person
information, and hence achieve a superior retrieval accuracy. A
surroundings-person separation and fusion mechanism plays the key role to
realize an accurate and effective surroundings-person separation under a
mutually exclusion constraint. In order to adequately utilize multi-modal and
multi-granular information for a higher retrieval accuracy, five diverse
alignment paradigms are adopted. Extensive experiments are carried out to
evaluate the proposed DSSL on CUHK-PEDES, which is currently the only
accessible dataset for text-base person retrieval task. DSSL achieves the
state-of-the-art performance on CUHK-PEDES. To properly evaluate our proposed
DSSL in the real scenarios, a Real Scenarios Text-based Person Reidentification
(RSTPReid) dataset is constructed to benefit future research on text-based
person retrieval, which will be publicly available.
- Abstract(参考訳): テキストに基づく人物検索タスクの多くの手法は、視覚とテキストのモダリティからモダリティ不変な特徴を抽出する目的で、潜在共通空間マッピングの学習に費やされている。
しかし、高次元データの複雑さのため、制約のないマッピングパラダイムは、不整合情報を落としながら、対応する人物の識別的手がかりを適切に把握できない。
直感的には、視覚データに含まれる情報は、互いに排他的な人物情報(PI)と周囲情報(SI)に分けることができる。
そこで本論文では,人物情報を効果的に抽出しマッチングし,より優れた検索精度を実現するために,新しいDeep Surroundings-person separated learning(DSSL)モデルを提案する。
周囲対人分離融合機構は、相互排他制約下で正確かつ効果的な周囲対人分離を実現するために重要な役割を果たす。
マルチモーダルおよびマルチグラニュラー情報を高い精度で適切に活用するために、5つの異なるアライメントパラダイムを採用する。
CUHK-PEDESで提案したDSSLは、現在テキストベースの人物検索タスクで唯一アクセス可能なデータセットである。
DSSLはCUHK-PEDESで最先端のパフォーマンスを実現する。
実シナリオで提案したDSSLを適切に評価するために、Real Scenarios Text-based Person Reidentification (RSTPReid)データセットを構築し、テキストベースの人物検索の今後の研究に役立てる。
関連論文リスト
- Prototype-Guided Text-based Person Search based on Rich Chinese
Descriptions [20.02304350708749]
本稿では,広く使用されている人物検索データセットPRWに基づいて,PRW-TPS-CNという大規模ベンチマークデータセットを提案する。
私たちのデータセットには47,102の文が含まれています。
個人検出とテキストに基づく人物検索の不整合を軽減するために,PRW-TPS-CNデータセットのリッチテキストを活用する。
論文 参考訳(メタデータ) (2023-12-22T17:08:14Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Language Models As Semantic Indexers [80.76133595275728]
生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。
本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。
学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PLIP: Language-Image Pre-training for Person Representation Learning [47.61636087431226]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Text is no more Enough! A Benchmark for Profile-based Spoken Language
Understanding [26.549776399115203]
プロファイルベースの音声言語理解(ProSLU)は、プレーンテキストだけでなく、適切な意図やスロットを予測するために、サポートされたプロファイル情報にも依存するモデルを必要とする。
我々は、5K以上の発話とそれに対応するプロファイル情報を備えた大規模人手による中国語データセットを導入する。
実験結果から,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に動作しないことがわかった。
論文 参考訳(メタデータ) (2021-12-22T15:22:17Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。