論文の概要: Cross-Modal Synergies: Unveiling the Potential of Motion-Aware Fusion Networks in Handling Dynamic and Static ReID Scenarios
- arxiv url: http://arxiv.org/abs/2502.00665v1
- Date: Sun, 02 Feb 2025 04:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.070746
- Title: Cross-Modal Synergies: Unveiling the Potential of Motion-Aware Fusion Networks in Handling Dynamic and Static ReID Scenarios
- Title(参考訳): クロスモーダル・シナジー:動的・静的ReIDシナリオ処理における運動認識融合ネットワークの可能性
- Authors: Fuxi Ling, Hongye Liu, Guoqiang Huang, Jing Li, Hong Wu, Zhihao Tang,
- Abstract要約: 本稿では,静的画像から得られる動きキューを利用してReID機能を大幅に向上させる,新しいMotion-Aware Fusion (MOTAR-FUSE) ネットワークを提案する。
我々のアプローチのユニークな側面は、モーション・アウェア・トランスフォーマーが人間の動きのダイナミクスを正確に捉えることができるような、動きの整合性タスクの統合である。
- 参考スコア(独自算出の注目度): 4.635813517641097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigating the complexities of person re-identification (ReID) in varied surveillance scenarios, particularly when occlusions occur, poses significant challenges. We introduce an innovative Motion-Aware Fusion (MOTAR-FUSE) network that utilizes motion cues derived from static imagery to significantly enhance ReID capabilities. This network incorporates a dual-input visual adapter capable of processing both images and videos, thereby facilitating more effective feature extraction. A unique aspect of our approach is the integration of a motion consistency task, which empowers the motion-aware transformer to adeptly capture the dynamics of human motion. This technique substantially improves the recognition of features in scenarios where occlusions are prevalent, thereby advancing the ReID process. Our comprehensive evaluations across multiple ReID benchmarks, including holistic, occluded, and video-based scenarios, demonstrate that our MOTAR-FUSE network achieves superior performance compared to existing approaches.
- Abstract(参考訳): 様々な監視シナリオにおける人物再識別(ReID)の複雑さをナビゲートすることは、特に閉塞が発生した場合に重要な課題となる。
本稿では,静的画像から得られる動きキューを利用してReID機能を大幅に向上させる,新しいMotion-Aware Fusion (MOTAR-FUSE) ネットワークを提案する。
このネットワークは、画像とビデオの両方を処理できるデュアルインプット・ビジュアルアダプタを搭載し、より効率的な特徴抽出を容易にする。
我々のアプローチのユニークな側面は、モーション・アウェア・トランスフォーマーが人間の動きのダイナミクスを順応的に捉えることができるような、動きの整合性タスクの統合である。
この技術は、オクルージョンが普及しているシナリオにおける特徴の認識を大幅に改善し、それによってReIDプロセスが進行する。
我々のMOTAR-FUSEネットワークが既存のアプローチと比較して優れた性能を発揮することを示す。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Unicorn: A Universal and Collaborative Reinforcement Learning Approach Towards Generalizable Network-Wide Traffic Signal Control [13.106167353085878]
適応交通信号制御 (ATSC) は, 混雑の低減, スループットの最大化, 都市部における移動性の向上に不可欠である。
パラメータ共有型マルチエージェント強化学習(MARL)の最近の進歩により、大規模同種ネットワークにおける複雑な動的流れのスケーラブルで適応的な最適化が大幅に向上した。
We present Unicorn, a universal and collaborative MARL framework designed for efficient and adaptable network-wide ATSC。
論文 参考訳(メタデータ) (2025-03-14T15:13:42Z) - TSDW: A Tri-Stream Dynamic Weight Network for Cloth-Changing Person Re-Identification [10.51699935302901]
衣服交換者再識別は、異なる時間空間シナリオで個人を特定するという課題を解決することを目的としている。
既存のReID研究は主に、顔認識、意味認識、衣服に関係のない特徴識別に頼っている。
本稿では,画像のみを必要とするTri-Stream Dynamic Weight Network (TSDW)を提案する。
論文 参考訳(メタデータ) (2025-03-01T13:04:49Z) - ClearSight: Human Vision-Inspired Solutions for Event-Based Motion Deblurring [5.827705323847176]
本研究はバイオインスパイアされたデュアルドライブハイブリッドネットワーク(BDHNet)を紹介する。
ヒト視覚系における視覚的注意機構にインスパイアされた本研究では、バイオインスパイアされたデュアルドライブハイブリッドネットワーク(BDHNet)を導入する。
論文 参考訳(メタデータ) (2025-01-27T06:28:45Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。