論文の概要: Beyond Visual Cues: Semantic-Driven Token Filtering and Expert Routing for Anytime Person ReID
- arxiv url: http://arxiv.org/abs/2604.15090v1
- Date: Thu, 16 Apr 2026 14:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.956949
- Title: Beyond Visual Cues: Semantic-Driven Token Filtering and Expert Routing for Anytime Person ReID
- Title(参考訳): ビジュアルクイズを超えて: セマンティック駆動のトークンフィルタリングとエキスパートルーティング
- Authors: Jiaxuan Li, Xin Wen, Zhihang Li,
- Abstract要約: Any-Time Person Re-identification (AT-ReID) は、任意の条件下で対象者の堅牢な検索を必要とする。
既存の手法は、環境や時間的要因によって変化しがちな純粋な視覚的特徴に強く依存している。
本稿では,LVLM(Large Vision-Language Models)を利用した識別整合性テキスト生成手法を提案する。
- 参考スコア(独自算出の注目度): 10.58405139566836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any-Time Person Re-identification (AT-ReID) necessitates the robust retrieval of target individuals under arbitrary conditions, encompassing both modality shifts (daytime and nighttime) and extensive clothing-change scenarios, ranging from short-term to long-term intervals. However, existing methods are highly relying on pure visual features, which are prone to change due to environmental and time factors, resulting in significantly performance deterioration under scenarios involving illumination caused modality shifts or cloth-change. In this paper, we propose Semantic-driven Token Filtering and Expert Routing (STFER), a novel framework that leverages the ability of Large Vision-Language Models (LVLMs) to generate identity consistency text, which provides identity-discriminative features that are robust to both clothing variations and cross-modality shifts between RGB and IR. Specifically, we employ instructions to guide the LVLM in generating identity-intrinsic semantic text that captures biometric constants for the semantic model driven. The text token is further used for Semantic-driven Visual Token Filtering (SVTF), which enhances informative visual regions and suppresses redundant background noise. Meanwhile, the text token is also used for Semantic-driven Expert Routing (SER), which integrates the semantic text into expert routing, resulting in more robust multi-scenario gating. Extensive experiments on the Any-Time ReID dataset (AT-USTC) demonstrate that our model achieves state-of-the-art results. Moreover, the model trained on AT-USTC was evaluated across 5 widely-used ReID benchmarks demonstrating superior generalization capabilities with highly competitive results. Our code will be available soon.
- Abstract(参考訳): Any-Time Person Re-identification (AT-ReID) は、短期から長期の期間にまたがる、モダリティシフト(昼間と夜間)と広範な衣服交換シナリオを含む、任意の条件下での個人に対する堅牢な検索を必要とする。
しかし、既存の手法は環境や時間的要因によって変化しがちな純粋な視覚的特徴に強く依存しており、照明がモード変化や布質の変化を引き起こしたシナリオにおいて、性能が著しく低下する。
本稿では,LVLM(Large Vision-Language Models)による識別整合性テキスト生成能力を活用したセマンティック型Token Filtering and Expert Routing(STFER)を提案する。
具体的には,LVLMを誘導する命令を用いて,意味モデル駆動の生体的定数をキャプチャする識別本質的な意味テキストを生成する。
テキストトークンはセマンティック駆動型ビジュアルトークンフィルタリング(SVTF)にも使用され、情報的視覚領域を強化し、冗長なバックグラウンドノイズを抑制する。
一方、テキストトークンはセマンティック駆動のエキスパートルーティング(SER)にも使用され、セマンティックテキストをエキスパートルーティングに統合することで、より堅牢なマルチシナリオゲーティングを実現する。
Any-Time ReIDデータセット(AT-USTC)の大規模な実験は、我々のモデルが最先端の結果を達成することを示す。
さらに、AT-USTCでトレーニングされたモデルは、5つの広く使用されているReIDベンチマークで評価され、高い競争力を持つ優れた一般化能力を示した。
私たちのコードはまもなく利用可能になります。
関連論文リスト
- RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。
既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。
堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文 参考訳(メタデータ) (2026-03-04T01:02:04Z) - When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-21T06:18:57Z) - Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification [25.3625307168105]
人物再識別 (ReID) は、視覚的クエリ (image-to-image, I2I) とテキスト記述 (text-to-image, T2I) のいずれかを対象とする歩行者画像の検索を目的とする。
論文 参考訳(メタデータ) (2025-11-17T16:39:49Z) - IndexNet: Timestamp and Variable-Aware Modeling for Time Series Forecasting [35.17464235813366]
IndexNetは、Index Embedding (IE)モジュールを備えたベクトルベースの拡張フレームワークである。
IEはタイムスタンプを埋め込みに変換し、入力シーケンスに注入することで、長期の複雑な周期パターンをキャプチャするモデルの能力を向上させる。
並行してCEは、各変数をそのインデックスに基づいてユニークで訓練可能なID埋め込みを割り当て、モデルが不均一な変数を明示的に区別できるようにする。
論文 参考訳(メタデータ) (2025-09-28T11:30:17Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization [21.8427780153806]
時系列予測は、エネルギー、医療、金融など、幅広い重要な応用において意思決定を支援する上で重要な役割を担っている。
我々は,言語に基づく記号表現を文脈対応時系列予測のための統合仲介手段として活用する,LLM駆動のフレームワークであるTokenCastを提案する。
具体的には、TokenCastは離散トークン化器を使用して、連続する数値列を時間トークンに変換し、言語ベースの入力と構造的アライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-08T03:51:08Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [14.01260112340177]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、監視カメラを通して個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を軽減するか、アイデンティティ(ID)関連の特徴を強化する。
本稿では,衣服による相違を低減し,IDの質を高めるために,新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。