論文の概要: Video-based Person Re-identification with Long Short-Term Representation
Learning
- arxiv url: http://arxiv.org/abs/2308.03703v1
- Date: Mon, 7 Aug 2023 16:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:55:37.718850
- Title: Video-based Person Re-identification with Long Short-Term Representation
Learning
- Title(参考訳): 長期短期表現学習による人物再同定
- Authors: Xuehu Liu and Pingping Zhang and Huchuan Lu
- Abstract要約: ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 101.62570747820541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person Re-Identification (V-ReID) aims to retrieve specific
persons from raw videos captured by non-overlapped cameras. As a fundamental
task, it spreads many multimedia and computer vision applications. However, due
to the variations of persons and scenes, there are still many obstacles that
must be overcome for high performance. In this work, we notice that both the
long-term and short-term information of persons are important for robust video
representations. Thus, we propose a novel deep learning framework named Long
Short-Term Representation Learning (LSTRL) for effective V-ReID. More
specifically, to extract long-term representations, we propose a
Multi-granularity Appearance Extractor (MAE), in which four granularity
appearances are effectively captured across multiple frames. Meanwhile, to
extract short-term representations, we propose a Bi-direction Motion Estimator
(BME), in which reciprocal motion information is efficiently extracted from
consecutive frames. The MAE and BME are plug-and-play and can be easily
inserted into existing networks for efficient feature learning. As a result,
they significantly improve the feature representation ability for V-ReID.
Extensive experiments on three widely used benchmarks show that our proposed
approach can deliver better performances than most state-of-the-arts.
- Abstract(参考訳): ビデオベースの人物再識別(v-reid)は、非オーバーラップカメラで撮影した生のビデオから特定の人物を検索することを目的としている。
基本的なタスクとして、多くのマルチメディアおよびコンピュータビジョンアプリケーションを広げる。
しかし、人や場面のバリエーションのため、ハイパフォーマンスのために克服しなければならない障害がまだたくさんある。
本研究では,人物の長期的・短期的情報の両方がロバストな映像表現に重要であることに気付く。
そこで我々はLong Short-Term Representation Learning (LSTRL) という新しいディープラーニングフレームワークを提案する。
より具体的には、長期的表現を抽出するために、複数のフレームに4つの粒度の外観を効果的にキャプチャするマルチグラニュラリティ・インフォーマンス・エクストラクタ(MAE)を提案する。
一方,短期表現を抽出するために,逐次フレームから相互運動情報を効率的に抽出する双方向運動推定器(bme)を提案する。
MAEとBMEはプラグアンドプレイであり、既存のネットワークに簡単に挿入して効率的な特徴学習を行うことができる。
その結果,V-ReIDの特徴表現能力は著しく向上した。
広く使用されている3つのベンチマークに関する広範囲な実験は、提案手法がほとんどの最先端ベンチマークよりも優れたパフォーマンスを提供できることを示している。
関連論文リスト
- MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。