論文の概要: ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model
- arxiv url: http://arxiv.org/abs/2506.09385v1
- Date: Wed, 11 Jun 2025 04:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.432978
- Title: ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model
- Title(参考訳): ReID5o: 単一モデルでOmniのマルチモーダル人物再識別を実現する
- Authors: Jialong Zuo, Yongtai Deng, Mengdan Tan, Rui Jin, Dongyue Wu, Nong Sang, Liang Pan, Changxin Gao,
- Abstract要約: Omni Multi-modal Person Re-identification (OM-ReID) と呼ばれる新しい課題について検討する。
ORBenchは、5つのモダリティにまたがる1,000のユニークなIDからなる最初の高品質なマルチモーダルデータセットである。
また,ReIDのための新しいマルチモーダル学習フレームワークであるReID5oを提案する。
- 参考スコア(独自算出の注目度): 38.4111384634895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In real-word scenarios, person re-identification (ReID) expects to identify a person-of-interest via the descriptive query, regardless of whether the query is a single modality or a combination of multiple modalities. However, existing methods and datasets remain constrained to limited modalities, failing to meet this requirement. Therefore, we investigate a new challenging problem called Omni Multi-modal Person Re-identification (OM-ReID), which aims to achieve effective retrieval with varying multi-modal queries. To address dataset scarcity, we construct ORBench, the first high-quality multi-modal dataset comprising 1,000 unique identities across five modalities: RGB, infrared, color pencil, sketch, and textual description. This dataset also has significant superiority in terms of diversity, such as the painting perspectives and textual information. It could serve as an ideal platform for follow-up investigations in OM-ReID. Moreover, we propose ReID5o, a novel multi-modal learning framework for person ReID. It enables synergistic fusion and cross-modal alignment of arbitrary modality combinations in a single model, with a unified encoding and multi-expert routing mechanism proposed. Extensive experiments verify the advancement and practicality of our ORBench. A wide range of possible models have been evaluated and compared on it, and our proposed ReID5o model gives the best performance. The dataset and code will be made publicly available at https://github.com/Zplusdragon/ReID5o_ORBench.
- Abstract(参考訳): 実単語のシナリオでは、個人の再識別(ReID)は、クエリが単一のモダリティであるか、あるいは複数のモダリティの組み合わせであるかに関わらず、記述的なクエリを介して興味のある人物を特定することを期待する。
しかし、既存のメソッドやデータセットは制限されたモダリティに制約され続けており、この要件を満たしていない。
そこで本研究では,Omni Multi-modal Person Re-identification (OM-ReID) と呼ばれる,多様なマルチモーダルクエリによる効率的な検索を実現するための課題について検討する。
データセット不足に対処するために、RGB、赤外線、カラー鉛筆、スケッチ、テキスト記述の5つのモードにまたがる1,000のユニークなIDからなる、最初の高品質なマルチモーダルデータセットORBenchを構築した。
このデータセットは、絵画の視点やテキスト情報など、多様性の観点からも大きな優位性を持っている。
OM-ReIDのフォローアップ調査のための理想的なプラットフォームとして機能する可能性がある。
また,ReIDのための新しいマルチモーダル学習フレームワークであるReID5oを提案する。
単一モデルにおける任意のモダリティ結合の相乗的融合と相互モーダルアライメントを実現し、統一符号化とマルチエキスパートルーティング機構を提案する。
大規模な実験により, ORBenchの進歩と実用性が確認された。
提案するReID5oモデルでは,多種多様なモデルが評価され,比較されている。
データセットとコードはhttps://github.com/Zplusdragon/ReID5o_ORBench.comで公開される。
関連論文リスト
- IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。