論文の概要: Learning Modal-Invariant and Temporal-Memory for Video-based
Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2208.02450v1
- Date: Thu, 4 Aug 2022 04:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:33:28.113086
- Title: Learning Modal-Invariant and Temporal-Memory for Video-based
Visible-Infrared Person Re-Identification
- Title(参考訳): 映像ベース可視赤外人物再同定のためのモーダル不変および時間記憶の学習
- Authors: Xinyu Lin, Jinxing Li, Zeyu Ma, Huafeng Li, Shuang Li, Kaixiong Xu,
Guangming Lu, David Zhang
- Abstract要約: 主にビデオベースのクロスモーダル人物Re-ID法について研究する。
トラックレット内のフレームの増加により,性能が向上することが証明された。
モーダル不変部分空間に2つのモダリティを投影する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 46.49866514866999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks for the cross-modal retrieval techniques, visible-infrared (RGB-IR)
person re-identification (Re-ID) is achieved by projecting them into a common
space, allowing person Re-ID in 24-hour surveillance systems. However, with
respect to the probe-to-gallery, almost all existing RGB-IR based cross-modal
person Re-ID methods focus on image-to-image matching, while the video-to-video
matching which contains much richer spatial- and temporal-information remains
under-explored. In this paper, we primarily study the video-based cross-modal
person Re-ID method. To achieve this task, a video-based RGB-IR dataset is
constructed, in which 927 valid identities with 463,259 frames and 21,863
tracklets captured by 12 RGB/IR cameras are collected. Based on our constructed
dataset, we prove that with the increase of frames in a tracklet, the
performance does meet more enhancement, demonstrating the significance of
video-to-video matching in RGB-IR person Re-ID. Additionally, a novel method is
further proposed, which not only projects two modalities to a modal-invariant
subspace, but also extracts the temporal-memory for motion-invariant. Thanks to
these two strategies, much better results are achieved on our video-based
cross-modal person Re-ID. The code and dataset are released at:
https://github.com/VCMproject233/MITML.
- Abstract(参考訳): クロスモーダル検索技術により、24時間監視システムにおいて、可視赤外(RGB-IR)の人物識別(Re-ID)を実現する。
しかし、プローブ対ガリーに関しては、既存のrgb-irベースのクロスモーダルパーソン・リidのほとんどすべてが画像対画像マッチングにフォーカスしているが、よりリッチな空間情報と時間情報を含むビデオ対ビデオマッチングは未検討のままである。
本稿では,主にビデオベースのクロスモーダル人物Re-ID法について検討する。
この課題を達成するために、ビデオベースのRGB-IRデータセットを構築し、12RGB/IRカメラでキャプチャされた463,259フレームと21,863トラックレットの有効ID927を収集する。
構築したデータセットから、トラックレット内のフレームの増加に伴い、RGB-IR人物Re-IDにおけるビデオ間マッチングの重要性が示され、性能が向上することが証明された。
さらに、モーダル不変部分空間に2つのモードを投影するだけでなく、運動不変部分空間の時間メモリを抽出する新しい手法も提案されている。
これら2つの戦略のおかげで、ビデオベースのクロスモーダルな人物であるRe-IDに対して、はるかに優れた結果が得られます。
コードとデータセットはhttps://github.com/vcmproject233/mitml。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Video-based Visible-Infrared Person Re-Identification with Auxiliary
Samples [21.781628451676205]
Visible-Infrared person re-identification (VI-ReID) は、可視・赤外線カメラで捉えた人物をマッチングすることを目的としている。
従来は、異なるカメラでモダリティを横断する人物画像から学ぶことに集中していた。
我々はまず,BUPTCampusという大規模なVI-ReIDデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-27T06:45:22Z) - Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark [8.932487291107812]
多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
論文 参考訳(メタデータ) (2021-11-08T03:58:55Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video
Re-identification [14.785070524184649]
ビデオベースのRe-IDは、以前の画像ベースの再識別手法の拡張である。
ResNet50-IBNアーキテクチャを利用した単純な単一ストリーム2D畳み込みネットワークの優れた性能を示す。
われわれのアプローチは、データセット間での最良のビデオRe-IDの実践と学習の伝達を利用して、既存の最先端のアプローチを上回ります。
論文 参考訳(メタデータ) (2020-08-14T12:19:32Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality
Person Re-Identification [15.475897856494583]
従来の人物識別はRGBカラー画像しか扱えないが、暗い条件下では失敗する。
RGB赤外線ReID(Infrared-Visible ReID、Visible-Thermal ReIDとも呼ばれる)が提案されている。
本稿では, 新たなマルチスペクトル画像生成手法を提案し, 生成したサンプルを用いて, ネットワークの識別情報検索を支援する。
論文 参考訳(メタデータ) (2020-02-29T09:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。