論文の概要: Seeing Across Time and Views: Multi-Temporal Cross-View Learning for Robust Video Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.02564v1
- Date: Tue, 04 Nov 2025 13:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.04947
- Title: Seeing Across Time and Views: Multi-Temporal Cross-View Learning for Robust Video Person Re-Identification
- Title(参考訳): 時間と視点を見渡す:ロバストビデオパーソン再同定のためのマルチテンポラル・クロスビュー学習
- Authors: Md Rashidunnabi, Kailash A. Hambarde, Vasco Lopes, Joao C. Neves, Hugo Proenca,
- Abstract要約: クロスビュー領域におけるビデオベースの人物再識別(ReID)は依然として未解決の問題である。
ViT-B/16バックボーン上に7つの相補的なモジュールを導入するパラメータ効率のフレームワークであるMTF-CVReIDを提案する。
我々は,MTF-CVReIDがリアルタイム効率(189FPS)を維持し,AG-VPReIDベンチマークの最先端性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 1.4270165633706586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based person re-identification (ReID) in cross-view domains (for example, aerial-ground surveillance) remains an open problem because of extreme viewpoint shifts, scale disparities, and temporal inconsistencies. To address these challenges, we propose MTF-CVReID, a parameter-efficient framework that introduces seven complementary modules over a ViT-B/16 backbone. Specifically, we include: (1) Cross-Stream Feature Normalization (CSFN) to correct camera and view biases; (2) Multi-Resolution Feature Harmonization (MRFH) for scale stabilization across altitudes; (3) Identity-Aware Memory Module (IAMM) to reinforce persistent identity traits; (4) Temporal Dynamics Modeling (TDM) for motion-aware short-term temporal encoding; (5) Inter-View Feature Alignment (IVFA) for perspective-invariant representation alignment; (6) Hierarchical Temporal Pattern Learning (HTPL) to capture multi-scale temporal regularities; and (7) Multi-View Identity Consistency Learning (MVICL) that enforces cross-view identity coherence using a contrastive learning paradigm. Despite adding only about 2 million parameters and 0.7 GFLOPs over the baseline, MTF-CVReID maintains real-time efficiency (189 FPS) and achieves state-of-the-art performance on the AG-VPReID benchmark across all altitude levels, with strong cross-dataset generalization to G2A-VReID and MARS datasets. These results show that carefully designed adapter-based modules can substantially enhance cross-view robustness and temporal consistency without compromising computational efficiency. The source code is available at https://github.com/MdRashidunnabi/MTF-CVReID
- Abstract(参考訳): クロスビュー領域(例えば地上監視)における映像に基づく人物再識別(ReID)は、極端な視点シフト、スケール格差、時間的不整合のため、未解決の問題である。
これらの課題に対処するために,VT-B/16バックボーン上に7つの相補的なモジュールを導入するパラメータ効率のフレームワークであるMTF-CVReIDを提案する。
具体的には、(1)カメラとビューのバイアスを補正するためのクロスストリーム特徴正規化(CSFN)、(2)高度をまたいだスケール安定化のためのマルチリゾリューション特徴調和(MRFH)、(3)永続的なアイデンティティ特性を強化するためのアイデンティティ認識メモリモジュール(IAMM)、(4)動きを意識した短期的エンコーディングのためのテンポラルダイナミクスモデリング(TDM)、(5)視点不変な表現アライメントのためのインタービュー特徴アライメント(IVFA)、(6)階層的テンポラルパターン学習(HTPL)、(7)マルチスケールの時間的正則性を捉えるためのマルチビューアイデンティティ一貫性学習(MVL)、である。
MTF-CVReIDは200万のパラメータと0.7のGFLOPしかベースラインに加えていないが、リアルタイム効率(189 FPS)を維持し、G2A-VReIDとMARSデータセットへの強力なクロスデータセットの一般化により、AG-VPReIDベンチマークにおける最先端のパフォーマンスを達成する。
これらの結果から,慎重に設計されたアダプタベースのモジュールは,計算効率を損なうことなく,クロスビューの堅牢性と時間的整合性を大幅に向上させることができることがわかった。
ソースコードはhttps://github.com/MdRashidunnabi/MTF-CVReIDで入手できる。
関連論文リスト
- Bidirectional Time-Frequency Pyramid Network for Enhanced Robust EEG Classification [2.512406961007489]
BITE(Bidirectional Time-Freq Pyramid Network)は、ロバストなマルチストリームシナジー、ピラミッド時間周波数アテンション(PTFA)、双方向適応畳み込みを特徴とするエンドツーエンドの統一アーキテクチャである。
統一アーキテクチャとして、MIタスクとSSVEPタスクの両方にわたる堅牢なパフォーマンスと、例外的な計算効率を組み合わせる。
我々の研究は、信頼性の高いBCIシステムにはスペクトル時間処理が不可欠であることを検証している。
論文 参考訳(メタデータ) (2025-10-11T04:14:48Z) - UniVid: The Open-Source Unified Video Model [41.15980565061684]
MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-29T02:31:36Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。