論文の概要: Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification
- arxiv url: http://arxiv.org/abs/2405.17790v1
- Date: Tue, 28 May 2024 03:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:32:09.500138
- Title: Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification
- Title(参考訳): Instruct-ReID++:Universal Purpose Instruction-Guided Person Re-identificationを目指して
- Authors: Weizhen He, Yiheng Deng, Yunfeng Yan, Feng Zhu, Yizhou Wang, Lei Bai, Qingsong Xie, Donglian Qi, Wanli Ouyang, Shixiang Tang,
- Abstract要約: 本稿では,与えられた画像や言語命令に従って,モデルに画像の検索を要求する新しい命令-ReIDタスクを提案する。
Instruct-ReIDは一般的なReID設定の最初の探索であり、既存の6つのReIDタスクを異なる命令を割り当てることで特別なケースとして見ることができる。
本稿では,新しいベースラインモデル IRM を提案する。
- 参考スコア(独自算出の注目度): 62.894790379098005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a novel instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Instruct-ReID is the first exploration of a general ReID setting, where existing 6 ReID tasks can be viewed as special cases by assigning different instructions. To facilitate research in this new instruct-ReID task, we propose a large-scale OmniReID++ benchmark equipped with diverse data and comprehensive evaluation methods e.g., task specific and task-free evaluation settings. In the task-specific evaluation setting, gallery sets are categorized according to specific ReID tasks. We propose a novel baseline model, IRM, with an adaptive triplet loss to handle various retrieval tasks within a unified framework. For task-free evaluation setting, where target person images are retrieved from task-agnostic gallery sets, we further propose a new method called IRM++ with novel memory bank-assisted learning. Extensive evaluations of IRM and IRM++ on OmniReID++ benchmark demonstrate the superiority of our proposed methods, achieving state-of-the-art performance on 10 test sets. The datasets, the model, and the code will be available at https://github.com/hwz-zju/Instruct-ReID
- Abstract(参考訳): 人間の知性は、視覚的および言語的記述の両方に従って、任意の人物を検索することができる。
しかし、現在のコンピュータビジョンコミュニティは、異なるシナリオにおける特定の人物再識別(ReID)タスクを別々に研究しており、現実世界の応用を制限している。
本稿では、与えられた画像や言語命令に従って画像を取得する必要がある新しい命令-ReIDタスクを提案することで、この問題を解決する。
Instruct-ReIDは一般的なReID設定の最初の探索であり、既存の6つのReIDタスクを異なる命令を割り当てることで特別なケースとして見ることができる。
そこで本研究では,タスク固有性やタスク不要性など,多種多様なデータと包括的評価手法を備えた大規模OmniReID++ベンチマークを提案する。
タスク固有の評価設定では、ギャラリーセットは特定のReIDタスクに従って分類される。
本稿では,新しいベースラインモデル IRM を提案する。
タスクに依存しないギャラリーセットから対象人物画像が検索されるタスクフリー評価設定では、新しいメモリバンク支援学習を用いたIRM++と呼ばれる新しい手法を提案する。
OmniReID++ ベンチマークによる IRM と IRM++ の大規模評価は,提案手法の優位性を実証し,10 個のテストセット上での最先端性能を実現した。
データセット、モデル、コードはhttps://github.com/hwz-zju/Instruct-ReIDで入手できる。
関連論文リスト
- Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - UniIR: Training and Benchmarking Universal Multimodal Information
Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。
UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。
我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:55:52Z) - Instruct-ReID: A Multi-purpose Person Re-identification Task with
Instructions [64.55715112644562]
本稿では,与えられた画像や言語命令に従って,モデルに画像の検索を要求する命令-ReIDタスクを提案する。
我々の命令-ReIDはより一般的なReID設定であり、既存の6つのReIDタスクを異なる命令を設計することで特別なケースとして見ることができる。
実験結果から,OmniReIDベンチマークで微調整なしでトレーニングした多目的ReIDモデルでは, Market1501, MSMT17, CUHK03, 従来のReIDでは+0.5%, +0.6%, +7.7%mAP, PRCCでは+6.4%, +7.1%, +11.2%mAPの改善が可能であった。
論文 参考訳(メタデータ) (2023-06-13T03:25:33Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Fine-Grained Re-Identification [1.8275108630751844]
本稿では,画像とビデオのReIDを統一する最初のモデルのひとつとして,計算効率のよいReIDモデルFGReIDを提案する。
FGReIDは、ビデオベースの事前学習と空間的特徴の注意を生かして、ビデオと画像の両方のReIDタスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2020-11-26T21:04:17Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。