論文の概要: From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2408.00096v1
- Date: Wed, 31 Jul 2024 18:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:36:04.179551
- Title: From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification
- Title(参考訳): 属性から自然言語へ:テキストに基づく人物再識別に関する調査と展望
- Authors: Fanzhi Jiang, Su Yang, Mark W. Jones, Liumei Zhang,
- Abstract要約: テキストベースのRe-IDの目的は、属性や自然言語の記述を精査することで、特定の歩行者を認識することである。
技術的観点からは、テキストベースの人物であるRe-IDを要約する包括的なレビューが欠落している。
本稿では,評価,戦略,アーキテクチャ,最適化の分野にまたがる分類を導入し,テキストベースの人物Re-IDタスクの総合的な調査を行う。
- 参考スコア(独自算出の注目度): 4.400729890122927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-based person re-identification (Re-ID) is a challenging topic in the field of complex multimodal analysis, its ultimate aim is to recognize specific pedestrians by scrutinizing attributes/natural language descriptions. Despite the wide range of applicable areas such as security surveillance, video retrieval, person tracking, and social media analytics, there is a notable absence of comprehensive reviews dedicated to summarizing the text-based person Re-ID from a technical perspective. To address this gap, we propose to introduce a taxonomy spanning Evaluation, Strategy, Architecture, and Optimization dimensions, providing a comprehensive survey of the text-based person Re-ID task. We start by laying the groundwork for text-based person Re-ID, elucidating fundamental concepts related to attribute/natural language-based identification. Then a thorough examination of existing benchmark datasets and metrics is presented. Subsequently, we further delve into prevalent feature extraction strategies employed in text-based person Re-ID research, followed by a concise summary of common network architectures within the domain. Prevalent loss functions utilized for model optimization and modality alignment in text-based person Re-ID are also scrutinized. To conclude, we offer a concise summary of our findings, pinpointing challenges in text-based person Re-ID. In response to these challenges, we outline potential avenues for future open-set text-based person Re-ID and present a baseline architecture for text-based pedestrian image generation-guided re-identification(TBPGR).
- Abstract(参考訳): テキストに基づく人物再識別(Re-ID)は、複雑なマルチモーダル分析の分野における課題であり、属性や自然言語の記述を精査することで、特定の歩行者を認識することを目的としている。
セキュリティ監視、ビデオ検索、人物追跡、ソーシャルメディア分析など、幅広い分野に当てはまるが、技術的観点からテキストベースの人物Re-IDを要約する包括的なレビューはない。
このギャップに対処するために、評価、戦略、アーキテクチャ、最適化の次元にまたがる分類を導入し、テキストベースの人物Re-IDタスクを包括的に調査することを提案する。
まず、テキストベースの人物Re-IDの基盤を置き、属性/自然言語に基づく識別に関する基本的な概念を解明する。
次に、既存のベンチマークデータセットとメトリクスの徹底的な検証を示す。
その後、テキストベースのRe-ID研究で使われる一般的な特徴抽出戦略を探求し、続いてドメイン内の共通ネットワークアーキテクチャを簡潔に要約する。
また、テキストベースの人物Re-IDにおけるモデル最適化やモダリティアライメントに有効な損失関数についても精査する。
結論として,本研究の成果を簡潔に要約し,テキストベースの人物Re-IDにおける課題の指摘を行う。
これらの課題に対応するために、将来のオープンセットのテキストベースの人物Re-IDの潜在的な道筋を概説し、テキストベースの歩行者画像生成誘導再識別(TBPGR)のためのベースラインアーキテクチャを提案する。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery [29.301950609839796]
本稿では、スロットアテンションに基づく部分発見モジュールを活用して、特徴部分を自律的に識別し、モダリティ間で整合させる新しいフレームワークを提案する。
提案手法は3つの公開ベンチマークで評価され,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-20T13:05:55Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Prototype-Guided Text-based Person Search based on Rich Chinese
Descriptions [20.02304350708749]
本稿では,広く使用されている人物検索データセットPRWに基づいて,PRW-TPS-CNという大規模ベンチマークデータセットを提案する。
私たちのデータセットには47,102の文が含まれています。
個人検出とテキストに基づく人物検索の不整合を軽減するために,PRW-TPS-CNデータセットのリッチテキストを活用する。
論文 参考訳(メタデータ) (2023-12-22T17:08:14Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - DSSL: Deep Surroundings-person Separation Learning for Text-based Person
Retrieval [40.70100506088116]
本稿では,Deep Surroundings-person Separation Learning(DSSL)モデルを提案する。
周囲の分離・融合機構は、正確かつ効果的な周囲の分離を実現する上で重要な役割を担っている。
CUHK-PEDES上で提案したDSSLの評価実験を行った。
論文 参考訳(メタデータ) (2021-09-12T15:09:09Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。