Fugu-MT 論文翻訳(概要): DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval

論文の概要: DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval

arxiv url: http://arxiv.org/abs/2109.05534v1
Date: Sun, 12 Sep 2021 15:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 15:38:12.721117
Title: DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval
Title（参考訳）: DSSL:テキストベースの人物検索のための深層人物分離学習
Authors: Aichun Zhu, Zijie Wang, Yifeng Li, Xili Wan, Jing Jin, Tian Wang, Fangqiang Hu, Gang Hua
Abstract要約: 本稿では,Deep Surroundings-person Separation Learning(DSSL)モデルを提案する。周囲の分離・融合機構は、正確かつ効果的な周囲の分離を実現する上で重要な役割を担っている。 CUHK-PEDES上で提案したDSSLの評価実験を行った。
参考スコア（独自算出の注目度）: 40.70100506088116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many previous methods on text-based person retrieval tasks are devoted to learning a latent common space mapping, with the purpose of extracting modality-invariant features from both visual and textual modality. Nevertheless, due to the complexity of high-dimensional data, the unconstrained mapping paradigms are not able to properly catch discriminative clues about the corresponding person while drop the misaligned information. Intuitively, the information contained in visual data can be divided into person information (PI) and surroundings information (SI), which are mutually exclusive from each other. To this end, we propose a novel Deep Surroundings-person Separation Learning (DSSL) model in this paper to effectively extract and match person information, and hence achieve a superior retrieval accuracy. A surroundings-person separation and fusion mechanism plays the key role to realize an accurate and effective surroundings-person separation under a mutually exclusion constraint. In order to adequately utilize multi-modal and multi-granular information for a higher retrieval accuracy, five diverse alignment paradigms are adopted. Extensive experiments are carried out to evaluate the proposed DSSL on CUHK-PEDES, which is currently the only accessible dataset for text-base person retrieval task. DSSL achieves the state-of-the-art performance on CUHK-PEDES. To properly evaluate our proposed DSSL in the real scenarios, a Real Scenarios Text-based Person Reidentification (RSTPReid) dataset is constructed to benefit future research on text-based person retrieval, which will be publicly available.
Abstract（参考訳）: テキストに基づく人物検索タスクの多くの手法は、視覚とテキストのモダリティからモダリティ不変な特徴を抽出する目的で、潜在共通空間マッピングの学習に費やされている。しかし、高次元データの複雑さのため、制約のないマッピングパラダイムは、不整合情報を落としながら、対応する人物の識別的手がかりを適切に把握できない。直感的には、視覚データに含まれる情報は、互いに排他的な人物情報(PI)と周囲情報(SI)に分けることができる。そこで本論文では,人物情報を効果的に抽出しマッチングし,より優れた検索精度を実現するために,新しいDeep Surroundings-person separated learning(DSSL)モデルを提案する。周囲対人分離融合機構は、相互排他制約下で正確かつ効果的な周囲対人分離を実現するために重要な役割を果たす。マルチモーダルおよびマルチグラニュラー情報を高い精度で適切に活用するために、5つの異なるアライメントパラダイムを採用する。 CUHK-PEDESで提案したDSSLは、現在テキストベースの人物検索タスクで唯一アクセス可能なデータセットである。 DSSLはCUHK-PEDESで最先端のパフォーマンスを実現する。実シナリオで提案したDSSLを適切に評価するために、Real Scenarios Text-based Person Reidentification (RSTPReid)データセットを構築し、テキストベースの人物検索の今後の研究に役立てる。

関連論文リスト

Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。 Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文参考訳（メタデータ） (2024-12-30T01:38:14Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Semantic Meta-Split Learning: A TinyML Scheme for Few-Shot Wireless Image Classification [50.28867343337997]
本研究は,TinyMLを用いた無線画像分類のためのセマンティック・コミュニケーション・フレームワークを提案する。我々は、プライバシ保護を確保しつつ、エンドユーザーによって実行される計算を制限するために分割学習を利用する。メタ学習は、データ可用性の懸念を克服し、同様のトレーニングされたタスクを利用することで、トレーニングを高速化する。
論文参考訳（メタデータ） (2024-09-03T05:56:55Z)
From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification [4.400729890122927]
テキストベースのRe-IDの目的は、属性や自然言語の記述を精査することで、特定の歩行者を認識することである。技術的観点からは、テキストベースの人物であるRe-IDを要約する包括的なレビューが欠落している。本稿では,評価,戦略,アーキテクチャ,最適化の分野にまたがる分類を導入し,テキストベースの人物Re-IDタスクの総合的な調査を行う。
論文参考訳（メタデータ） (2024-07-31T18:16:18Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Prototype-Guided Text-based Person Search based on Rich Chinese Descriptions [20.02304350708749]
本稿では,広く使用されている人物検索データセットPRWに基づいて,PRW-TPS-CNという大規模ベンチマークデータセットを提案する。私たちのデータセットには47,102の文が含まれています。個人検出とテキストに基づく人物検索の不整合を軽減するために,PRW-TPS-CNデータセットのリッチテキストを活用する。
論文参考訳（メタデータ） (2023-12-22T17:08:14Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text is no more Enough! A Benchmark for Profile-based Spoken Language Understanding [26.549776399115203]
プロファイルベースの音声言語理解(ProSLU)は、プレーンテキストだけでなく、適切な意図やスロットを予測するために、サポートされたプロファイル情報にも依存するモデルを必要とする。我々は、5K以上の発話とそれに対応するプロファイル情報を備えた大規模人手による中国語データセットを導入する。実験結果から,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に動作しないことがわかった。
論文参考訳（メタデータ） (2021-12-22T15:22:17Z)
Text-based Person Search in Full Images via Semantic-Driven Proposal Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文参考訳（メタデータ） (2021-09-27T11:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。