論文の概要: KeyRe-ID: Keypoint-Guided Person Re-Identification using Part-Aware Representation in Videos
- arxiv url: http://arxiv.org/abs/2507.07393v1
- Date: Thu, 10 Jul 2025 03:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.257393
- Title: KeyRe-ID: Keypoint-Guided Person Re-Identification using Part-Aware Representation in Videos
- Title(参考訳): KeyRe-ID:ビデオにおける部分認識表現を用いたキーポイントガイドによる人物再識別
- Authors: Jinseong Kim, Junghoon Song, Gyeongseon Baek, Byeongjoon Noh,
- Abstract要約: 本稿では,人間のキーポイントを学習の強化に活用する,グローバルとローカルのブランチで構成されるキーポイント誘導型人物識別フレームワークを提案する。
MARSベンチマークの実験は最先端のパフォーマンスを示し、91.73% mAPと97.32%のランク-1の精度を達成した。
この作業のコードはGitHubで公開される予定だ。
- 参考スコア(独自算出の注目度): 0.07499722271664144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose \textbf{KeyRe-ID}, a keypoint-guided video-based person re-identification framework consisting of global and local branches that leverage human keypoints for enhanced spatiotemporal representation learning. The global branch captures holistic identity semantics through Transformer-based temporal aggregation, while the local branch dynamically segments body regions based on keypoints to generate fine-grained, part-aware features. Extensive experiments on MARS and iLIDS-VID benchmarks demonstrate state-of-the-art performance, achieving 91.73\% mAP and 97.32\% Rank-1 accuracy on MARS, and 96.00\% Rank-1 and 100.0\% Rank-5 accuracy on iLIDS-VID. The code for this work will be publicly available on GitHub upon publication.
- Abstract(参考訳): 時空間表現学習の強化にヒトのキーポイントを利用するグローバルおよびローカルブランチからなるキーポイント誘導型ビデオベース人物識別フレームワークである「textbf{KeyRe-ID}」を提案する。
グローバルブランチはTransformerベースの時間的アグリゲーションを通じて全体的アイデンティティセマンティクスをキャプチャし、ローカルブランチはキーポイントに基づいてボディリージョンを動的にセグメントし、きめ細かい部分認識機能を生成する。
MARSとiLIDS-VIDベンチマークの大規模な実験は、最先端のパフォーマンスを示し、MARSでは91.73\% mAPと97.32\% Rank-1、iLIDS-VIDでは96.00\% Rank-1と100.0\% Rank-5の精度を達成した。
この作業のコードは、公開時にGitHubで公開される。
関連論文リスト
- Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Keypoint-Augmented Self-Supervised Learning for Medical Image
Segmentation with Limited Annotation [21.203307064937142]
本稿では,短距離と長距離の両方の自己注意を保った表現を抽出するキーポイント拡張融合層を提案する。
特に,長距離空間の自己意識を学習する追加入力を組み込むことで,CNN機能マップを複数スケールで拡張する。
提案手法は,より堅牢な自己アテンションを生成することにより,既存のSSLメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-10-02T22:31:30Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature
Matching [9.006654114778073]
OAMatcherは、人間の動作を模倣して、密集した正確な一致を生成する、検知不要な手法である。
OAMatcherは重複する領域を予測し、効果的でクリーンなグローバルコンテキストアグリゲーションを促進する。
総合的な実験により、OAMatcherはいくつかのベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-02-12T03:32:45Z) - Distilling Facial Knowledge With Teacher-Tasks:
Semantic-Segmentation-Features For Pose-Invariant Face-Recognition [1.1811442086145123]
提案したSeg-Distilled-IDネットワークは、セグメンテーションタスクを「蒸留」する識別タスクとセグメンテーションタスクを共同で学習する。
パフォーマンスは、公開データセット上の最先端の3つのエンコーダに対してベンチマークされる。
実験により、Seg-Distilled-IDネットワークは、ResNet-101の81.6%、VGG-19の96.1%、InceptionV3の96.3%と比較して、99.9%のテスト精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T15:24:22Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Global-Local Dynamic Feature Alignment Network for Person
Re-Identification [5.202841879001503]
本研究では,歩行者の局所ストライプにスライド窓を設置することにより,2つの画像の局所的特徴を動的に整列させる,シンプルで効率的な局所スライディングアライメント(LSA)戦略を提案する。
LSAは空間的不整合を効果的に抑制することができ、追加の監視情報を導入する必要はない。
GLDFA-NetのローカルブランチにLSAを導入し、距離メトリクスの計算をガイドし、テストフェーズの精度をさらに向上させる。
論文 参考訳(メタデータ) (2021-09-13T07:53:36Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Effective Action Recognition with Embedded Key Point Shifts [19.010874017607247]
我々は、キーポイントシフト埋め込みモジュール(KPSEM$)という新しい時間的特徴抽出モジュールを提案する。
キーポイントは分割領域における最大特徴値を持つ特徴点として適応的に抽出され、キーポイントシフトは対応するキーポイントの空間変位である。
本手法は, 簡単な計算コストでキーポイントシフトを埋め込むことで, 競争性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T05:19:04Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。