論文の概要: Self-Supervised Learning of Whole and Component-Based Semantic
Representations for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2311.17074v2
- Date: Fri, 1 Dec 2023 20:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:48:51.328854
- Title: Self-Supervised Learning of Whole and Component-Based Semantic
Representations for Person Re-Identification
- Title(参考訳): 人物再同定のための全体と構成要素に基づく意味表現の自己教師付き学習
- Authors: Siyuan Huang, Yifan Zhou, Ram Prabhakar Kathirvel, Rama Chellappa,
Chun Pong Lau
- Abstract要約: 本稿では,人間中心のセマンティック表現を正確に活用することで,ReID性能が向上するかどうかを検討する。
適応的部分ベースセマンティック抽出にISMを利用する自己教師型ReIDモデルであるSemReIDを提案する。
また、ロバストな性能を実現するために、ReID法を補助する新しいLUPerson-Partデータセットについても紹介する。
- 参考スコア(独自算出の注目度): 55.737417575765775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive Segmentation Models (ISMs) like the Segment Anything Model have
significantly improved various computer vision tasks, yet their application to
Person Re-identification (ReID) remains limited. On the other hand, existing
semantic pre-training models for ReID often have limitations like predefined
parsing ranges or coarse semantics. Additionally, ReID and Clothes-Changing
ReID (CC-ReID) are usually treated separately due to their different domains.
This paper investigates whether utilizing precise human-centric semantic
representation can boost the ReID performance and improve the generalization
among various ReID tasks. We propose SemReID, a self-supervised ReID model that
leverages ISMs for adaptive part-based semantic extraction, contributing to the
improvement of ReID performance. SemReID additionally refines its semantic
representation through techniques such as image masking and KoLeo
regularization. Evaluation across three types of ReID datasets -- standard
ReID, CC-ReID, and unconstrained ReID -- demonstrates superior performance
compared to state-of-the-art methods. In addition, recognizing the scarcity of
large person datasets with fine-grained semantics, we introduce the novel
LUPerson-Part dataset to assist ReID methods in acquiring the fine-grained part
semantics for robust performance.
- Abstract(参考訳): Segment Anything Modelのような対話型セグメンテーションモデル(ISM)は、様々なコンピュータビジョンタスクを大幅に改善してきたが、Person Re-identification(ReID)への応用は限定的である。
一方、ReIDの既存のセマンティック事前トレーニングモデルには、事前に定義された解析範囲や粗いセマンティクスのような制限があることが多い。
また、ReID と Clothes-Changing ReID (CC-ReID) はドメインによって別々に扱われることが多い。
本稿では,人間中心意味表現の高精度化がreid性能の向上と各種reidタスクの一般化に寄与するかどうかについて検討する。
本稿では,適応部分ベースセマンティック抽出にISMを利用する自己教師型ReIDモデルSemReIDを提案する。
SemReIDはさらに、イメージマスキングやKoLeo正規化といったテクニックを通じて、セマンティック表現を洗練している。
標準ReID、CC-ReID、制約なしReIDの3種類のReIDデータセットに対する評価は、最先端の手法と比較して優れたパフォーマンスを示している。
また,細粒度なセマンティクスを持つ大人数データセットの不足を認識し,ロバストな性能を実現するために,reid法を支援する新しいluperson-partデータセットを提案する。
関連論文リスト
- PooDLe: Pooled and dense self-supervised learning from naturalistic videos [32.656425302538835]
本稿では,プール表現における不変性に基づくSSL目的と高密度SSL目標とを組み合わせた新しいアプローチを提案する。
BDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-20T21:40:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition [14.450381668547259]
空間的自己注意機構を持つ視覚変換器は、細粒度の異なる画像のカテゴリを識別するために正確な注意マップを学習できなかった。
本稿では,STANと呼ばれる細粒度特徴表現を学習するための時空間アテンションネットワークを提案する。
提案したSTAN-OSFGRは,9つの最先端のオープンセット認識法に優れる。
論文 参考訳(メタデータ) (2022-11-25T07:46:42Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。