論文の概要: Robust Re-Identification by Multiple Views Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2007.04174v1
- Date: Wed, 8 Jul 2020 15:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:38:43.622572
- Title: Robust Re-Identification by Multiple Views Knowledge Distillation
- Title(参考訳): 多視点知識蒸留によるロバスト再同定
- Authors: Angelo Porrello, Luca Bergamini, Simone Calderara
- Abstract要約: 我々は,対象対象を描写した一連の視点から,優れた知識を伝達する訓練戦略を考案する。
本提案では,教師が学習する枠組みの中で,視覚的多様性を指導信号として活用することを提案する。
その結果、学生は教師だけでなく、イメージ・トゥ・ビデオにおける現在の最先端の成績も大きな差で上回っている。
- 参考スコア(独自算出の注目度): 17.72422869639206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve robustness in Re-Identification, standard methods leverage
tracking information in a Video-To-Video fashion. However, these solutions face
a large drop in performance for single image queries (e.g., Image-To-Video
setting). Recent works address this severe degradation by transferring temporal
information from a Video-based network to an Image-based one. In this work, we
devise a training strategy that allows the transfer of a superior knowledge,
arising from a set of views depicting the target object. Our proposal - Views
Knowledge Distillation (VKD) - pins this visual variety as a supervision signal
within a teacher-student framework, where the teacher educates a student who
observes fewer views. As a result, the student outperforms not only its teacher
but also the current state-of-the-art in Image-To-Video by a wide margin (6.3%
mAP on MARS, 8.6% on Duke-Video-ReId and 5% on VeRi-776). A thorough analysis -
on Person, Vehicle and Animal Re-ID - investigates the properties of VKD from a
qualitatively and quantitatively perspective. Code is available at
https://github.com/aimagelab/VKD.
- Abstract(参考訳): 再同定におけるロバスト性を実現するため、標準手法では追跡情報をビデオ対ビデオ方式で活用する。
しかし、これらのソリューションは、単一の画像クエリ(例えば、画像からビデオへの設定)のパフォーマンスが大幅に低下する。
近年の研究では,映像ベースネットワークから画像ベースネットワークへ時間情報を転送することで,この深刻な劣化に対処している。
本研究は,対象対象を描写した一組の視点から,優れた知識の伝達を可能にするトレーニング戦略を考案する。
本提案では,教師がより少ない視点を観察する生徒を教育する教師・学生の枠組みにおいて,この視覚的多様性を監督信号として捉える。
その結果、学生は教師だけでなく、映像対ビデオの最先端技術も大きく上回っている(火星では6.3%、デューク=ビデオ=リードでは8.6%、ヴェリ-776では5%)。
人, 乗り物, 動物リidの徹底分析により, vkdの特性を定性的, 定量的に検討した。
コードはhttps://github.com/aimagelab/VKD.comで入手できる。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Image-to-Video Re-Identification via Mutual Discriminative Knowledge
Transfer [23.58451803257377]
画像とビデオの表現のギャップは、画像からビデオへの再識別(I2V Re-ID)を難しくする。
画像ベース表現により効果的に動画ベースのリッチ表現を転送するための相互識別的知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-21T21:04:39Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。