論文の概要: Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States
- arxiv url: http://arxiv.org/abs/2509.11247v1
- Date: Sun, 14 Sep 2025 12:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.993679
- Title: Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States
- Title(参考訳): ハイブリッド衣服状態におけるコンテキスト化マルチモーダル長寿命人物再同定
- Authors: Robert Long, Rongxin Jiang, Mingrui Yan,
- Abstract要約: 身元再確認(ReID)は、衣料品変更(CCReID)による現実世界の監視システムにいくつかの課題がある
既存の手法では、特定のアプリケーション向けにモデルを開発するか、CCReIDを独自のサブプロブレムとして扱うかのいずれかであった。
LReID-Hybridタスクは,連続的な環境で学習しながら,SCとCCの両方を達成するためのモデルを開発することを目的としている。
- 参考スコア(独自算出の注目度): 2.6399783378460158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person Re-Identification (ReID) has several challenges in real-world surveillance systems due to clothing changes (CCReID) and the need for maintaining continual learning (LReID). Previous existing methods either develop models specifically for one application, which is mostly a same-cloth (SC) setting or treat CCReID as its own separate sub-problem. In this work, we will introduce the LReID-Hybrid task with the goal of developing a model to achieve both SC and CC while learning in a continual setting. Mismatched representations and forgetting from one task to the next are significant issues, we address this with CMLReID, a CLIP-based framework composed of two novel tasks: (1) Context-Aware Semantic Prompt (CASP) that generates adaptive prompts, and also incorporates context to align richly multi-grained visual cues with semantic text space; and (2) Adaptive Knowledge Fusion and Projection (AKFP) which produces robust SC/CC prototypes through the use of a dual-path learner that aligns features with our Clothing-State-Aware Projection Loss. Experiments performed on a wide range of datasets and illustrate that CMLReID outperforms all state-of-the-art methods with strong robustness and generalization despite clothing variations and a sophisticated process of sequential learning.
- Abstract(参考訳): 個人再識別(ReID)は,服飾変化(CCReID)と連続学習(LReID)の必要性により,現実世界の監視システムにおいていくつかの課題がある。
従来の手法では、1つのアプリケーションに特化してモデルを開発するか、CCReIDを独自のサブプロブレムとして扱うかのどちらかであった。
本研究では,LReID-Hybridタスクを導入し,連続的な環境下で学習しながら,SCとCCの両方を達成するモデルを開発することを目的とする。
1)適応的なプロンプトを生成するコンテキスト認識セマンティック・プロンプト(CASP)と,(2)適応的知識融合・プロジェクション(AKFP)という2つの新しいタスクからなるCLIPベースのフレームワークで,SC/CCの堅牢なプロトタイプを生成する。
CMLReIDは、衣服のバリエーションやシーケンシャルな学習の洗練されたプロセスにもかかわらず、強い堅牢性と一般化によって、あらゆる最先端の手法を上回ります。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID [4.256800812615341]
ハードサンプルは、人物の再識別(ReID)タスクにおいて重要な課題となる。
それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。
本稿では,新しいマルチモーダル型ハードサンプル生成学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T09:14:01Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - PS-ReID: Advancing Person Re-Identification and Precise Segmentation with Multimodal Retrieval [38.530536338075684]
人物再識別(ReID)は、セキュリティ監視や刑事捜査などの応用において重要な役割を果たす。
画像とテキストの入力を組み合わせたマルチモーダルモデルであるbf PS-ReIDを提案する。
実験の結果、PS-ReIDは、ReIDとセグメンテーションタスクの両方において、ユニモーダルクエリベースのモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-27T15:14:03Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - VILLS -- Video-Image Learning to Learn Semantics for Person Re-Identification [51.89551385538251]
VILLS (Video-Image Learning to Learn Semantics) は画像やビデオから空間的特徴と時間的特徴を共同で学習する自己教師型手法である。
VILLSはまず、意味的一貫性と頑健な空間的特徴を適応的に抽出する局所意味抽出モジュールを設計する。
そして、VILLSは、一貫した特徴空間における画像とビデオのモダリティを表現するために、統合された特徴学習および適応モジュールを設計する。
論文 参考訳(メタデータ) (2023-11-27T19:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。