論文の概要: ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.19958v1
- Date: Thu, 27 Feb 2025 10:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:28.493372
- Title: ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models
- Title(参考訳): ChatReID: 視覚言語モデルのための階層的プログレッシブチューニングによるオープンエンド対話型人物検索
- Authors: Ke Niu, Haiyang Yu, Mengyang Zhao, Teng Fu, Siyang Yi, Wei Lu, Bin Li, Xuelin Qian, Xiangyang Xue,
- Abstract要約: 人物再識別(Re-ID)は、人間中心の知的システムにおいて重要な課題である。
近年の研究では、LVLMと人物Re-IDの統合が成功し、有望な結果が得られている。
本稿では,新規で汎用性の高い一対一のRe-IDフレームワークChatReIDを提案する。
- 参考スコア(独自算出の注目度): 49.09606704563898
- License:
- Abstract: Person re-identification (Re-ID) is a critical task in human-centric intelligent systems, enabling consistent identification of individuals across different camera views using multi-modal query information. Recent studies have successfully integrated LVLMs with person Re-ID, yielding promising results. However, existing LVLM-based methods face several limitations. They rely on extracting textual embeddings from fixed templates, which are used either as intermediate features for image representation or for prompt tuning in domain-specific tasks. Furthermore, they are unable to adopt the VQA inference format, significantly restricting their broader applicability. In this paper, we propose a novel, versatile, one-for-all person Re-ID framework, ChatReID. Our approach introduces a Hierarchical Progressive Tuning (HPT) strategy, which ensures fine-grained identity-level retrieval by progressively refining the model's ability to distinguish pedestrian identities. Extensive experiments demonstrate that our approach outperforms SOTA methods across ten benchmarks in four different Re-ID settings, offering enhanced flexibility and user-friendliness. ChatReID provides a scalable, practical solution for real-world person Re-ID applications, enabling effective multi-modal interaction and fine-grained identity discrimination.
- Abstract(参考訳): 人物再識別(Re-ID)は、人間中心のインテリジェントシステムにおいて重要なタスクであり、マルチモーダルクエリ情報を用いて、異なるカメラビューで個人を一貫した識別を可能にする。
近年の研究では、LVLMと人物Re-IDの統合が成功し、有望な結果が得られている。
しかし、既存のLVLMベースの手法にはいくつかの制限がある。
これらは、画像表現の中間機能や、ドメイン固有のタスクの即時チューニングに使用される固定テンプレートからテキスト埋め込みを抽出することに依存している。
さらに、VQA推論フォーマットを採用することができないため、適用範囲が大幅に制限されている。
本稿では,新規で汎用性の高い一対一のRe-IDフレームワークChatReIDを提案する。
提案手法では,歩行者の身元を識別するモデルの能力を段階的に改善することにより,詳細なアイデンティティレベルの検索を可能にする階層的プログレッシブ・チューニング(HPT)戦略を導入する。
大規模な実験により、我々のアプローチは10のベンチマークで4つのRe-ID設定でSOTAメソッドよりも優れており、柔軟性とユーザフレンドリさが向上していることが示された。
ChatReIDは、実世界のRe-IDアプリケーションに対してスケーラブルで実用的なソリューションを提供し、効果的なマルチモーダルインタラクションときめ細かい識別を可能にする。
関連論文リスト
- All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Dynamic Enhancement Network for Partial Multi-modality Person
Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。
欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文 参考訳(メタデータ) (2023-05-25T06:22:01Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Semantic Consistency and Identity Mapping Multi-Component Generative
Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。
提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T14:12:29Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。