論文の概要: MMReID-Bench: Unleashing the Power of MLLMs for Effective and Versatile Person Re-identification
- arxiv url: http://arxiv.org/abs/2508.06908v1
- Date: Sat, 09 Aug 2025 09:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.610565
- Title: MMReID-Bench: Unleashing the Power of MLLMs for Effective and Versatile Person Re-identification
- Title(参考訳): MMReID-Bench: MLLMのパワーを解き放ち、効果的で多能な人物の再識別
- Authors: Jinhao Li, Zijian Chen, Lirong Deng, Changbo Wang, Guangtao Zhai,
- Abstract要約: MMReID-Benchは,人を対象としたマルチタスクマルチモーダルベンチマークである。
MMReID-Benchには20,710のマルチモーダルクエリと10人のReIDタスクをカバーするギャラリーイメージが含まれている。
- 参考スコア(独自算出の注目度): 38.374065994346985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) aims to retrieve the images of an interested person in the gallery images, with wide applications in medical rehabilitation, abnormal behavior detection, and public security. However, traditional person ReID models suffer from uni-modal capability, leading to poor generalization ability in multi-modal data, such as RGB, thermal, infrared, sketch images, textual descriptions, etc. Recently, the emergence of multi-modal large language models (MLLMs) shows a promising avenue for addressing this problem. Despite this potential, existing methods merely regard MLLMs as feature extractors or caption generators, which do not fully unleash their reasoning, instruction-following, and cross-modal understanding capabilities. To bridge this gap, we introduce MMReID-Bench, the first multi-task multi-modal benchmark specifically designed for person ReID. The MMReID-Bench includes 20,710 multi-modal queries and gallery images covering 10 different person ReID tasks. Comprehensive experiments demonstrate the remarkable capabilities of MLLMs in delivering effective and versatile person ReID. Nevertheless, they also have limitations in handling a few modalities, particularly thermal and infrared data. We hope MMReID-Bench can facilitate the community to develop more robust and generalizable multimodal foundation models for person ReID.
- Abstract(参考訳): 人物再識別(ReID)は、ギャラリー画像中の興味ある人物の画像を検索することを目的としており、医学的リハビリテーション、異常な行動検出、公衆の安全に広く応用されている。
しかし、従来の人物ReIDモデルはユニモーダル能力に悩まされており、RGB、サーマル、赤外線、スケッチ画像、テキスト記述などのマルチモーダルデータにおける一般化能力の低下につながっている。
近年,MLLM (Multi-modal large language model) の出現は,この問題に対処するための有望な道筋を示している。
この可能性にもかかわらず、既存の手法ではMLLMを特徴抽出器やキャプションジェネレータとみなすだけで、推論、命令追従、モーダル間理解能力を完全に解き放たない。
このギャップを埋めるために,人間向けのマルチタスクマルチモーダルベンチマークであるMMReID-Benchを導入する。
MMReID-Benchには20,710のマルチモーダルクエリと10人のReIDタスクをカバーするギャラリーイメージが含まれている。
総合的な実験は、効果的で多目的なReIDを提供する上で、MLLMの顕著な能力を実証している。
それにもかかわらず、いくつかのモダリティ、特に熱と赤外線のデータを扱うことに制限がある。
我々は,MMReID-Benchが,より堅牢で汎用的なReID基盤モデルの開発を促進することを願っている。
関連論文リスト
- ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model [38.4111384634895]
Omni Multi-modal Person Re-identification (OM-ReID) と呼ばれる新しい課題について検討する。
ORBenchは、5つのモダリティにまたがる1,000のユニークなIDからなる最初の高品質なマルチモーダルデータセットである。
また,ReIDのための新しいマルチモーダル学習フレームワークであるReID5oを提案する。
論文 参考訳(メタデータ) (2025-06-11T04:26:13Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Fusion for Visual-Infrared Person ReID in Real-World Surveillance Using
Corrupted Multimodal Data [10.816003787786766]
V-I ReID (Visible-infrared person re-identification) は、RGBとIRカメラの分散ネットワーク上で撮影された個人の画像と一致する。
最先端のV-I ReIDモデルは、劣化したモダリティ情報を利用して高い精度を維持することはできない。
劣化したマルチモーダル画像に対するロバスト性を改善するために,モダリティ固有の知識を保ったマルチモーダルV-I ReIDの効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-04-29T18:18:59Z) - Multimodal Data Augmentation for Visual-Infrared Person ReID with
Corrupted Data [10.816003787786766]
本稿では,V-I人物ReIDモデルのためのDA戦略を提案する。
我々の戦略は、深い人物のReIDモデルの精度に対する汚職の影響を減らすことができる。
以上の結果から,V-I ReIDモデルでは,共有知識と個別モダリティ知識の両方を活用できることが示唆された。
論文 参考訳(メタデータ) (2022-11-22T00:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。