論文の概要: Evolution of ReID: From Early Methods to LLM Integration
- arxiv url: http://arxiv.org/abs/2506.13039v1
- Date: Mon, 16 Jun 2025 02:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.312907
- Title: Evolution of ReID: From Early Methods to LLM Integration
- Title(参考訳): ReIDの進化:初期の方法からLLM統合へ
- Authors: Amran Bhuiyan, Mizanur Rahman, Md Tahmid Rahman Laskar, Aijun An, Jimmy Xiangji Huang,
- Abstract要約: 人物の再識別は、手作りの特徴に基づく手法からディープラーニングアプローチへと進化してきた。
この調査は、完全な進化を辿り、大規模な言語モデルを利用するReIDアプローチに関する最初の包括的なレビューの1つを提供する。
重要な貢献は、画像とテキストのアライメントを強化するGPT-4oによって生成される動的でアイデンティティ固有のプロンプトを使用することである。
- 参考スコア(独自算出の注目度): 13.214445400030922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) has evolved from handcrafted feature-based methods to deep learning approaches and, more recently, to models incorporating large language models (LLMs). Early methods struggled with variations in lighting, pose, and viewpoint, but deep learning addressed these issues by learning robust visual features. Building on this, LLMs now enable ReID systems to integrate semantic and contextual information through natural language. This survey traces that full evolution and offers one of the first comprehensive reviews of ReID approaches that leverage LLMs, where textual descriptions are used as privileged information to improve visual matching. A key contribution is the use of dynamic, identity-specific prompts generated by GPT-4o, which enhance the alignment between images and text in vision-language ReID systems. Experimental results show that these descriptions improve accuracy, especially in complex or ambiguous cases. To support further research, we release a large set of GPT-4o-generated descriptions for standard ReID datasets. By bridging computer vision and natural language processing, this survey offers a unified perspective on the field's development and outlines key future directions such as better prompt design, cross-modal transfer learning, and real-world adaptability.
- Abstract(参考訳): 人物再識別(ReID)は、手作りの特徴に基づく手法からディープラーニングアプローチ、そして最近では、大きな言語モデル(LLM)を組み込んだモデルへと進化してきた。
初期の手法は照明、ポーズ、視点のバリエーションに苦しんだが、ディープラーニングは堅牢な視覚的特徴を学習することでこれらの問題に対処した。
これに基づいてLLMは、自然言語を通じて意味情報と文脈情報を統合できるReIDシステムを実現した。
この調査は、完全な進化を辿り、LLMを利用するReIDアプローチに関する最初の包括的なレビューの1つを提供し、テキスト記述を特権情報として使用して視覚的マッチングを改善する。
GPT-4oによって生成される動的でアイデンティティ固有のプロンプトは、視覚言語ReIDシステムにおける画像とテキストのアライメントを強化する。
実験結果から, これらの記述は, 特に複雑, 曖昧な症例において, 精度を向上することが明らかとなった。
さらなる研究を支援するため、標準ReIDデータセットに対するGPT-4o生成記述の大規模なセットをリリースする。
コンピュータビジョンと自然言語処理の橋渡しにより、この調査は分野の発展に関する統一的な視点を提供し、より良いプロンプト設計、クロスモーダルトランスファーラーニング、現実世界の適応性といった重要な今後の方向性を概説する。
関連論文リスト
- How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
凍結型大言語モデル (LLM) と凍結型視覚変換器 (ViT) を意図的に維持する方法論的枠組みを導入する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
このことは、ViT出力と初期のLCMレイヤーの根本的な相違を示唆し、現在のアダプタベースのアーキテクチャが、モダル間の表現学習を最適に行うかどうかという重要な疑問を提起している。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM [8.941718961724984]
Pseudo-Knowledge Graph (PKG)フレームワークはメタパス検索、イングラフテキスト、ベクトル検索を大規模言語モデルに統合する。
PKGはより豊かな知識表現を提供し、情報検索の精度を向上させる。
論文 参考訳(メタデータ) (2025-03-01T02:39:37Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。