論文の概要: Evolution of ReID: From Early Methods to LLM Integration
- arxiv url: http://arxiv.org/abs/2506.13039v1
- Date: Mon, 16 Jun 2025 02:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.312907
- Title: Evolution of ReID: From Early Methods to LLM Integration
- Title(参考訳): ReIDの進化:初期の方法からLLM統合へ
- Authors: Amran Bhuiyan, Mizanur Rahman, Md Tahmid Rahman Laskar, Aijun An, Jimmy Xiangji Huang,
- Abstract要約: 人物の再識別は、手作りの特徴に基づく手法からディープラーニングアプローチへと進化してきた。
この調査は、完全な進化を辿り、大規模な言語モデルを利用するReIDアプローチに関する最初の包括的なレビューの1つを提供する。
重要な貢献は、画像とテキストのアライメントを強化するGPT-4oによって生成される動的でアイデンティティ固有のプロンプトを使用することである。
- 参考スコア(独自算出の注目度): 13.214445400030922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) has evolved from handcrafted feature-based methods to deep learning approaches and, more recently, to models incorporating large language models (LLMs). Early methods struggled with variations in lighting, pose, and viewpoint, but deep learning addressed these issues by learning robust visual features. Building on this, LLMs now enable ReID systems to integrate semantic and contextual information through natural language. This survey traces that full evolution and offers one of the first comprehensive reviews of ReID approaches that leverage LLMs, where textual descriptions are used as privileged information to improve visual matching. A key contribution is the use of dynamic, identity-specific prompts generated by GPT-4o, which enhance the alignment between images and text in vision-language ReID systems. Experimental results show that these descriptions improve accuracy, especially in complex or ambiguous cases. To support further research, we release a large set of GPT-4o-generated descriptions for standard ReID datasets. By bridging computer vision and natural language processing, this survey offers a unified perspective on the field's development and outlines key future directions such as better prompt design, cross-modal transfer learning, and real-world adaptability.
- Abstract(参考訳): 人物再識別(ReID)は、手作りの特徴に基づく手法からディープラーニングアプローチ、そして最近では、大きな言語モデル(LLM)を組み込んだモデルへと進化してきた。
初期の手法は照明、ポーズ、視点のバリエーションに苦しんだが、ディープラーニングは堅牢な視覚的特徴を学習することでこれらの問題に対処した。
これに基づいてLLMは、自然言語を通じて意味情報と文脈情報を統合できるReIDシステムを実現した。
この調査は、完全な進化を辿り、LLMを利用するReIDアプローチに関する最初の包括的なレビューの1つを提供し、テキスト記述を特権情報として使用して視覚的マッチングを改善する。
GPT-4oによって生成される動的でアイデンティティ固有のプロンプトは、視覚言語ReIDシステムにおける画像とテキストのアライメントを強化する。
実験結果から, これらの記述は, 特に複雑, 曖昧な症例において, 精度を向上することが明らかとなった。
さらなる研究を支援するため、標準ReIDデータセットに対するGPT-4o生成記述の大規模なセットをリリースする。
コンピュータビジョンと自然言語処理の橋渡しにより、この調査は分野の発展に関する統一的な視点を提供し、より良いプロンプト設計、クロスモーダルトランスファーラーニング、現実世界の適応性といった重要な今後の方向性を概説する。
関連論文リスト
- How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
凍結型大言語モデル (LLM) と凍結型視覚変換器 (ViT) を意図的に維持する方法論的枠組みを導入する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
このことは、ViT出力と初期のLCMレイヤーの根本的な相違を示唆し、現在のアダプタベースのアーキテクチャが、モダル間の表現学習を最適に行うかどうかという重要な疑問を提起している。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。
クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。
ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM [8.941718961724984]
Pseudo-Knowledge Graph (PKG)フレームワークはメタパス検索、イングラフテキスト、ベクトル検索を大規模言語モデルに統合する。
PKGはより豊かな知識表現を提供し、情報検索の精度を向上させる。
論文 参考訳(メタデータ) (2025-03-01T02:39:37Z) - POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning [34.93661259065691]
近年の研究では、多モーダル情報によるPOI表現の充実がタスク性能を大幅に向上させることが示されている。
広範なテキストデータに基づいて訓練された大規模言語モデル (LLMs) は、リッチテキストの知識を持つことがわかった。
古典的なPOI学習モデルによって生成されたPOI表現を改善するために,LLMを利用するポータブルフレームワークであるPOI-Enhancerを提案する。
論文 参考訳(メタデータ) (2025-02-14T09:34:24Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。