論文の概要: FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation
- arxiv url: http://arxiv.org/abs/2503.21595v1
- Date: Thu, 27 Mar 2025 15:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:25.571905
- Title: FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation
- Title(参考訳): FusionSegReID:マルチモーダル検索と高精度セグメンテーションによる人物再認識の促進
- Authors: Jincheng Yan, Yun Wang, Xiaoyan Luo, Yu-Wing Tai,
- Abstract要約: 人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。
従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。
本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
- 参考スコア(独自算出の注目度): 42.980289787679084
- License:
- Abstract: Person re-identification (ReID) plays a critical role in applications like security surveillance and criminal investigations by matching individuals across large image galleries captured by non-overlapping cameras. Traditional ReID methods rely on unimodal inputs, typically images, but face limitations due to challenges like occlusions, lighting changes, and pose variations. While advancements in image-based and text-based ReID systems have been made, the integration of both modalities has remained under-explored. This paper presents FusionSegReID, a multimodal model that combines both image and text inputs for enhanced ReID performance. By leveraging the complementary strengths of these modalities, our model improves matching accuracy and robustness, particularly in complex, real-world scenarios where one modality may struggle. Our experiments show significant improvements in Top-1 accuracy and mean Average Precision (mAP) for ReID, as well as better segmentation results in challenging scenarios like occlusion and low-quality images. Ablation studies further confirm that multimodal fusion and segmentation modules contribute to enhanced re-identification and mask accuracy. The results show that FusionSegReID outperforms traditional unimodal models, offering a more robust and flexible solution for real-world person ReID tasks.
- Abstract(参考訳): 人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。
従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。
画像ベースとテキストベースのReIDシステムの進歩は進んでいるが、両方のモダリティの統合は未検討のままである。
本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
これらのモダリティの相補的な強みを活用することで、我々のモデルはマッチング精度とロバスト性、特に一つのモダリティが苦しむような複雑な実世界のシナリオを改善する。
実験の結果,ReIDにおけるTop-1精度と平均平均精度(mAP)が著しく向上し,閉塞画像や低画質画像などの難易度シナリオにおけるセグメンテーション結果が向上した。
アブレーション研究は、マルチモーダル融合とセグメンテーションモジュールが再同定とマスクの精度の向上に寄与することをさらに確認した。
その結果、FusionSegReIDは従来のユニモーダルモデルよりも優れており、現実世界のReIDタスクに対してより堅牢で柔軟なソリューションを提供することがわかった。
関連論文リスト
- Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Robust Ensemble Person Re-Identification via Orthogonal Fusion with Occlusion Handling [4.431087385310259]
排除は、個人再識別(ReID)における大きな課題の1つとして残されている。
本稿では,CNN と Transformer アーキテクチャを併用し,ロバストな特徴表現を生成する深層アンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:38:59Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。