論文の概要: When Large Vision-Language Models Meet Person Re-Identification
- arxiv url: http://arxiv.org/abs/2411.18111v1
- Date: Wed, 27 Nov 2024 07:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:42.998372
- Title: When Large Vision-Language Models Meet Person Re-Identification
- Title(参考訳): 大規模視覚言語モデルが人体再同定と出会うとき
- Authors: Qizao Wang, Bin Li, Xiangyang Xue,
- Abstract要約: 本稿では,LVLMの強度を利用してReIDを促進する新しいフレームワークであるLVLM-ReIDを提案する。
我々のフレームワークは,LVLMのセマンティック理解と生成能力をエンドツーエンドのReIDトレーニングに統合する。
画像テキストアノテーションを追加せずに複数のベンチマークで競合する結果を得る。
- 参考スコア(独自算出の注目度): 44.604485649167216
- License:
- Abstract: Large Vision-Language Models (LVLMs) that incorporate visual models and Large Language Models (LLMs) have achieved impressive results across various cross-modal understanding and reasoning tasks. In recent years, person re-identification (ReID) has also started to explore cross-modal semantics to improve the accuracy of identity recognition. However, effectively utilizing LVLMs for ReID remains an open challenge. While LVLMs operate under a generative paradigm by predicting the next output word, ReID requires the extraction of discriminative identity features to match pedestrians across cameras. In this paper, we propose LVLM-ReID, a novel framework that harnesses the strengths of LVLMs to promote ReID. Specifically, we employ instructions to guide the LVLM in generating one pedestrian semantic token that encapsulates key appearance semantics from the person image. This token is further refined through our Semantic-Guided Interaction (SGI) module, establishing a reciprocal interaction between the semantic token and visual tokens. Ultimately, the reinforced semantic token serves as the pedestrian identity representation. Our framework integrates the semantic understanding and generation capabilities of LVLMs into end-to-end ReID training, allowing LVLMs to capture rich semantic cues from pedestrian images during both training and inference. Our method achieves competitive results on multiple benchmarks without additional image-text annotations, demonstrating the potential of LVLM-generated semantics to advance person ReID and offering a promising direction for future research.
- Abstract(参考訳): 視覚モデルとLLM(Large Language Models)を組み込んだLVLM(Large Vision-Language Models)は、多種多様なモーダルな理解と推論タスクにおいて印象的な成果を上げている。
近年,個人再識別(ReID)も,個人識別の精度を高めるために,クロスモーダルなセマンティクスを探求し始めている。
しかし、LVLMをReIDに効果的に活用することは未解決の課題である。
LVLMは次の出力ワードを予測して生成パラダイムの下で動作するが、ReIDはカメラ間で歩行者にマッチする識別アイデンティティの特徴を抽出する必要がある。
本稿では,LVLMの強みを利用してReIDを促進する新しいフレームワークであるLVLM-ReIDを提案する。
具体的には、人物画像から重要な外観意味をカプセル化する1つの歩行者意味トークンを生成する際に、LVLMを誘導するための指示を用いる。
このトークンはSemantic-Guided Interaction (SGI)モジュールを通じてさらに洗練され、セマンティックトークンとビジュアルトークンの間の相互の相互作用を確立する。
最終的に、強化セマンティックトークンは歩行者識別表現として機能する。
我々のフレームワークはLVLMのセマンティック理解と生成能力をエンドツーエンドのReIDトレーニングに統合し、LVLMはトレーニングと推論の両方の間、歩行者画像からリッチなセマンティックキューをキャプチャできる。
提案手法は画像テキストアノテーションを付加せずに複数のベンチマークで競合する結果が得られ,LVLM生成セマンティクスが先進者ReIDにもたらす可能性を示すとともに,今後の研究に期待できる方向性を示す。
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。