論文の概要: Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2311.17074v6
- Date: Wed, 09 Oct 2024 19:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:32.435236
- Title: Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification
- Title(参考訳): 人物再同定のための全体と構成要素に基づく意味表現の自己教師付き学習
- Authors: Siyuan Huang, Yifan Zhou, Ram Prabhakar, Xijun Liu, Yuxiang Guo, Hongrui Yi, Cheng Peng, Rama Chellappa, Chun Pong Lau,
- Abstract要約: 個人再識別(ReID)は、さまざまな設定にまたがって個人を特定することに焦点を当て、困難な問題である。
本稿では,対話モデルにインスパイアされた局所意味抽出(LSE)モジュールを提案する。
また,LSEを利用したセマンティックReID(Semantic ReID)を導入し,様々なReIDドメインやモダリティをシームレスに移動するための効果的なセマンティックスを学習する。
- 参考スコア(独自算出の注目度): 46.47881384542614
- License:
- Abstract: Person Re-Identification (ReID) is a challenging problem, focusing on identifying individuals across diverse settings. However, previous ReID methods primarily concentrated on a single domain or modality, such as Clothes-Changing ReID (CC-ReID) and video ReID. Real-world ReID is not constrained by factors like clothes or input types. Recent approaches emphasize on learning semantics through pre-training to enhance ReID performance but are hindered by coarse granularity, on-clothes focus and pre-defined areas. To address these limitations, we propose a Local Semantic Extraction (LSE) module inspired by Interactive Segmentation Models. The LSE module captures fine-grained, biometric, and flexible local semantics, enhancing ReID accuracy. Additionally, we introduce Semantic ReID (SemReID), a pre-training method that leverages LSE to learn effective semantics for seamless transfer across various ReID domains and modalities. Extensive evaluations across nine ReID datasets demonstrates SemReID's robust performance across multiple domains, including clothes-changing ReID, video ReID, unconstrained ReID, and short-term ReID. Our findings highlight the importance of effective semantics in ReID, as SemReID can achieve great performances without domain-specific designs.
- Abstract(参考訳): 個人再識別(ReID)は、さまざまな設定にまたがって個人を特定することに焦点を当て、困難な問題である。
しかし、以前のReIDメソッドは、Clothes-Changing ReID(CC-ReID)やビデオReIDのような単一のドメインやモダリティに集中していた。
現実世界のReIDは、服や入力タイプのような要因によって制約されない。
近年のアプローチでは、ReID性能を向上させるための事前学習による意味学の学習が重視されているが、粗い粒度、着衣点、事前定義された領域によって妨げられている。
これらの制約に対処するため,インタラクティブセグメンテーションモデルにインスパイアされた局所意味抽出(LSE)モジュールを提案する。
LSEモジュールは微細でバイオメトリックでフレキシブルなローカルセマンティクスをキャプチャし、ReIDの精度を高める。
さらに,LSEを利用したセマンティックReID(Semantic ReID)を導入し,様々なReIDドメインやモダリティをシームレスに移動するための効果的なセマンティックスを学習する。
9つのReIDデータセットにわたる大規模な評価は、着替え型ReID、ビデオReID、制約なしReID、短期ReIDなど、SemReIDの堅牢なパフォーマンスを示している。
SemReIDはドメイン固有の設計を使わずに優れた性能を発揮するため,ReIDにおける効果的なセマンティクスの重要性を強調した。
関連論文リスト
- PooDLe: Pooled and dense self-supervised learning from naturalistic videos [32.656425302538835]
本稿では,プール表現における不変性に基づくSSL目的と高密度SSL目標とを組み合わせた新しいアプローチを提案する。
BDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-20T21:40:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition [14.450381668547259]
空間的自己注意機構を持つ視覚変換器は、細粒度の異なる画像のカテゴリを識別するために正確な注意マップを学習できなかった。
本稿では,STANと呼ばれる細粒度特徴表現を学習するための時空間アテンションネットワークを提案する。
提案したSTAN-OSFGRは,9つの最先端のオープンセット認識法に優れる。
論文 参考訳(メタデータ) (2022-11-25T07:46:42Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。