論文の概要: Uncertainty-Aware Multi-Shot Knowledge Distillation for Image-Based
Object Re-Identification
- arxiv url: http://arxiv.org/abs/2001.05197v2
- Date: Tue, 21 Jan 2020 17:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:31:28.324480
- Title: Uncertainty-Aware Multi-Shot Knowledge Distillation for Image-Based
Object Re-Identification
- Title(参考訳): 画像に基づく物体再同定のための不確実性を考慮したマルチショット知識蒸留
- Authors: Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen
- Abstract要約: 各画像の特徴学習を指導するために,同一のアイデンティティのマルチショットを活用することを提案する。
それは、同一物体の複数の画像から包括的特徴を学習する教師ネットワーク(T-net)と、1つの画像を入力として取る学生ネットワーク(S-net)から構成される。
提案手法の有効性を,一般的な車種と個人用車種に検証した。
- 参考スコア(独自算出の注目度): 93.39253443415392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object re-identification (re-id) aims to identify a specific object across
times or camera views, with the person re-id and vehicle re-id as the most
widely studied applications. Re-id is challenging because of the variations in
viewpoints, (human) poses, and occlusions. Multi-shots of the same object can
cover diverse viewpoints/poses and thus provide more comprehensive information.
In this paper, we propose exploiting the multi-shots of the same identity to
guide the feature learning of each individual image. Specifically, we design an
Uncertainty-aware Multi-shot Teacher-Student (UMTS) Network. It consists of a
teacher network (T-net) that learns the comprehensive features from multiple
images of the same object, and a student network (S-net) that takes a single
image as input. In particular, we take into account the data dependent
heteroscedastic uncertainty for effectively transferring the knowledge from the
T-net to S-net. To the best of our knowledge, we are the first to make use of
multi-shots of an object in a teacher-student learning manner for effectively
boosting the single image based re-id. We validate the effectiveness of our
approach on the popular vehicle re-id and person re-id datasets. In inference,
the S-net alone significantly outperforms the baselines and achieves the
state-of-the-art performance.
- Abstract(参考訳): オブジェクト再識別(re-id)は、特定のオブジェクトを時間やカメラのビューで識別することを目的としている。
Re-idは視点、(人間)ポーズ、およびオクルージョンのバリエーションによって困難である。
同じオブジェクトのマルチショットは様々な視点や状況をカバーし、より包括的な情報を提供する。
本稿では,同一人物のマルチショットを利用して個々の画像の特徴学習を指導する手法を提案する。
具体的には,Uncertainty-aware Multi-shot Teacher-Student (UMTS) ネットワークを設計する。
それは、同一物体の複数の画像から包括的特徴を学習する教師ネットワーク(T-net)と、1つの画像を入力として取る学生ネットワーク(S-net)から構成される。
特に、T-netからS-netへ効果的に知識を転送するためのデータ依存的ヘテロセダスティック不確実性を考慮する。
私たちの知識を最大限に活用するために、私たちは教師-学生の学習方法でオブジェクトのマルチショットを初めて活用し、単一の画像ベースのre-idを効果的に強化する。
提案手法の有効性を,一般的な車種と個人用車種に検証した。
推測では、Sネットのみがベースラインを著しく上回り、最先端の性能を達成する。
関連論文リスト
- Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Learning Invariance from Generated Variance for Unsupervised Person
Re-identification [15.096776375794356]
従来のデータ拡張をGAN(Generative Adversarial Network)に置き換えることを提案する。
3次元メッシュガイド型人物画像生成器は、人物画像をID関連およびID非関連の特徴に分解するために提案される。
生成モジュールとコントラストモジュールを共同でトレーニングすることにより、主流の大規模ベンチマーク上で、最先端の非教師なしのReID性能を実現する。
論文 参考訳(メタデータ) (2023-01-02T15:40:14Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Pose-driven Attention-guided Image Generation for Person
Re-Identification [39.605062525247135]
複数人のポーズを生成するために,エンドツーエンドのポーズ駆動型ジェネレーション対人ネットワークを提案する。
ポーズ転送中の人のセマンティック情報を保存するためにセマンティック一貫性損失が提案される。
提案手法を人物再識別フレームワークに組み込むことにより,リアルなポーズ転送画像と最先端の再識別結果を実現できることを示した。
論文 参考訳(メタデータ) (2021-04-28T14:02:24Z) - Person image generation with semantic attention network for person
re-identification [9.30413920076019]
本稿では,意味的注意ネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。
ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。
他の方法と比較して、我々のネットワークはより優れた身体形状を特徴付けることができ、同時に衣服の属性を保持することができる。
論文 参考訳(メタデータ) (2020-08-18T12:18:51Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。