論文の概要: Video-based Person Re-identification with Long Short-Term Representation
Learning
- arxiv url: http://arxiv.org/abs/2308.03703v1
- Date: Mon, 7 Aug 2023 16:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:55:37.718850
- Title: Video-based Person Re-identification with Long Short-Term Representation
Learning
- Title(参考訳): 長期短期表現学習による人物再同定
- Authors: Xuehu Liu and Pingping Zhang and Huchuan Lu
- Abstract要約: ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 101.62570747820541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person Re-Identification (V-ReID) aims to retrieve specific
persons from raw videos captured by non-overlapped cameras. As a fundamental
task, it spreads many multimedia and computer vision applications. However, due
to the variations of persons and scenes, there are still many obstacles that
must be overcome for high performance. In this work, we notice that both the
long-term and short-term information of persons are important for robust video
representations. Thus, we propose a novel deep learning framework named Long
Short-Term Representation Learning (LSTRL) for effective V-ReID. More
specifically, to extract long-term representations, we propose a
Multi-granularity Appearance Extractor (MAE), in which four granularity
appearances are effectively captured across multiple frames. Meanwhile, to
extract short-term representations, we propose a Bi-direction Motion Estimator
(BME), in which reciprocal motion information is efficiently extracted from
consecutive frames. The MAE and BME are plug-and-play and can be easily
inserted into existing networks for efficient feature learning. As a result,
they significantly improve the feature representation ability for V-ReID.
Extensive experiments on three widely used benchmarks show that our proposed
approach can deliver better performances than most state-of-the-arts.
- Abstract(参考訳): ビデオベースの人物再識別(v-reid)は、非オーバーラップカメラで撮影した生のビデオから特定の人物を検索することを目的としている。
基本的なタスクとして、多くのマルチメディアおよびコンピュータビジョンアプリケーションを広げる。
しかし、人や場面のバリエーションのため、ハイパフォーマンスのために克服しなければならない障害がまだたくさんある。
本研究では,人物の長期的・短期的情報の両方がロバストな映像表現に重要であることに気付く。
そこで我々はLong Short-Term Representation Learning (LSTRL) という新しいディープラーニングフレームワークを提案する。
より具体的には、長期的表現を抽出するために、複数のフレームに4つの粒度の外観を効果的にキャプチャするマルチグラニュラリティ・インフォーマンス・エクストラクタ(MAE)を提案する。
一方,短期表現を抽出するために,逐次フレームから相互運動情報を効率的に抽出する双方向運動推定器(bme)を提案する。
MAEとBMEはプラグアンドプレイであり、既存のネットワークに簡単に挿入して効率的な特徴学習を行うことができる。
その結果,V-ReIDの特徴表現能力は著しく向上した。
広く使用されている3つのベンチマークに関する広範囲な実験は、提案手法がほとんどの最先端ベンチマークよりも優れたパフォーマンスを提供できることを示している。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。