論文の概要: Cross-Modal Synergies: Unveiling the Potential of Motion-Aware Fusion Networks in Handling Dynamic and Static ReID Scenarios
- arxiv url: http://arxiv.org/abs/2502.00665v1
- Date: Sun, 02 Feb 2025 04:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:40.100600
- Title: Cross-Modal Synergies: Unveiling the Potential of Motion-Aware Fusion Networks in Handling Dynamic and Static ReID Scenarios
- Title(参考訳): クロスモーダル・シナジー:動的・静的ReIDシナリオ処理における運動認識融合ネットワークの可能性
- Authors: Fuxi Ling, Hongye Liu, Guoqiang Huang, Jing Li, Hong Wu, Zhihao Tang,
- Abstract要約: 本稿では,静的画像から得られる動きキューを利用してReID機能を大幅に向上させる,新しいMotion-Aware Fusion (MOTAR-FUSE) ネットワークを提案する。
我々のアプローチのユニークな側面は、モーション・アウェア・トランスフォーマーが人間の動きのダイナミクスを正確に捉えることができるような、動きの整合性タスクの統合である。
- 参考スコア(独自算出の注目度): 4.635813517641097
- License:
- Abstract: Navigating the complexities of person re-identification (ReID) in varied surveillance scenarios, particularly when occlusions occur, poses significant challenges. We introduce an innovative Motion-Aware Fusion (MOTAR-FUSE) network that utilizes motion cues derived from static imagery to significantly enhance ReID capabilities. This network incorporates a dual-input visual adapter capable of processing both images and videos, thereby facilitating more effective feature extraction. A unique aspect of our approach is the integration of a motion consistency task, which empowers the motion-aware transformer to adeptly capture the dynamics of human motion. This technique substantially improves the recognition of features in scenarios where occlusions are prevalent, thereby advancing the ReID process. Our comprehensive evaluations across multiple ReID benchmarks, including holistic, occluded, and video-based scenarios, demonstrate that our MOTAR-FUSE network achieves superior performance compared to existing approaches.
- Abstract(参考訳): 様々な監視シナリオにおける人物再識別(ReID)の複雑さをナビゲートすることは、特に閉塞が発生した場合に重要な課題となる。
本稿では,静的画像から得られる動きキューを利用してReID機能を大幅に向上させる,新しいMotion-Aware Fusion (MOTAR-FUSE) ネットワークを提案する。
このネットワークは、画像とビデオの両方を処理できるデュアルインプット・ビジュアルアダプタを搭載し、より効率的な特徴抽出を容易にする。
我々のアプローチのユニークな側面は、モーション・アウェア・トランスフォーマーが人間の動きのダイナミクスを順応的に捉えることができるような、動きの整合性タスクの統合である。
この技術は、オクルージョンが普及しているシナリオにおける特徴の認識を大幅に改善し、それによってReIDプロセスが進行する。
我々のMOTAR-FUSEネットワークが既存のアプローチと比較して優れた性能を発揮することを示す。
関連論文リスト
- ClearSight: Human Vision-Inspired Solutions for Event-Based Motion Deblurring [5.827705323847176]
本研究はバイオインスパイアされたデュアルドライブハイブリッドネットワーク(BDHNet)を紹介する。
ヒト視覚系における視覚的注意機構にインスパイアされた本研究では、バイオインスパイアされたデュアルドライブハイブリッドネットワーク(BDHNet)を導入する。
論文 参考訳(メタデータ) (2025-01-27T06:28:45Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Reversible Decoupling Network for Single Image Reflection Removal [15.763420129991255]
高レベルのセマンティックなヒントは、層間伝播中に圧縮または破棄される傾向がある。
我々はReversible Decoupling Network (RDNet)と呼ばれる新しいアーキテクチャを提案する。
RDNetは可逆エンコーダを使用して、転送時と反射時の特徴を柔軟に分離しながら、貴重な情報を確保する。
論文 参考訳(メタデータ) (2024-10-10T15:58:27Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。