論文の概要: FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World
- arxiv url: http://arxiv.org/abs/2509.16674v1
- Date: Sat, 20 Sep 2025 12:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.916901
- Title: FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World
- Title(参考訳): FitPro:オープンワールドにおけるインタラクティブテキストベースの歩行者検索のためのゼロショットフレームワーク
- Authors: Zengli Luo, Canlong Zhang, Xiaochun Lu, Zhixin Li,
- Abstract要約: FitProはオープンワールドのインタラクティブなTPRフレームワークで、セマンティック理解とクロスシーン適応性を強化している。
FitProには、FCD(Feature Contrastive Decoding)、ISM(Incrmental Semantic Mining)、QHR(Query-aware Hierarchical Retrieval)の3つの革新的なコンポーネントがある。
- 参考スコア(独自算出の注目度): 13.089848592467675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based Pedestrian Retrieval (TPR) aims to retrieve specific target pedestrians in visual scenes according to natural language descriptions. Although existing methods have achieved progress under constrained settings, interactive retrieval in the open-world scenario still suffers from limited model generalization and insufficient semantic understanding. To address these challenges, we propose FitPro, an open-world interactive zero-shot TPR framework with enhanced semantic comprehension and cross-scene adaptability. FitPro has three innovative components: Feature Contrastive Decoding (FCD), Incremental Semantic Mining (ISM), and Query-aware Hierarchical Retrieval (QHR). The FCD integrates prompt-guided contrastive decoding to generate high-quality structured pedestrian descriptions from denoised images, effectively alleviating semantic drift in zero-shot scenarios. The ISM constructs holistic pedestrian representations from multi-view observations to achieve global semantic modeling in multi-turn interactions,thereby improving robustness against viewpoint shifts and fine-grained variations in descriptions. The QHR dynamically optimizes the retrieval pipeline according to query types, enabling efficient adaptation to multi-modal and multi-view inputs. Extensive experiments on five public datasets and two evaluation protocols demonstrate that FitPro significantly overcomes the generalization limitations and semantic modeling constraints of existing methods in interactive retrieval, paving the way for practical deployment. The code and data will be released at https://github.com/ lilo4096/FitPro-Interactive-Person-Retrieval.
- Abstract(参考訳): テキストベースのPedestrian Retrieval(TPR)は、自然言語による記述に基づいて、視覚的なシーンで特定の歩行者を検索することを目的としている。
既存の手法は制約された設定下で進歩を遂げているが、オープンワールドシナリオにおける対話的検索は、モデル一般化の制限と意味理解の不十分さに悩まされている。
これらの課題に対処するため、我々は、セマンティック理解とクロスシーン適応性を強化したオープンワールドインタラクティブなゼロショットTPRフレームワークであるFitProを提案する。
FitProには、FCD(Feature Contrastive Decoding)、ISM(Incrmental Semantic Mining)、QHR(Query-aware Hierarchical Retrieval)の3つの革新的なコンポーネントがある。
FCDは、プロンプト誘導されたコントラストデコーディングを統合して、画像から高品質な構造化された歩行者記述を生成し、ゼロショットシナリオにおけるセマンティックドリフトを効果的に緩和する。
ISMは、多視点の観察から総合的な歩行者表現を構築し、多方向の相互作用におけるグローバルな意味モデリングを実現し、視点シフトに対する堅牢性を改善し、説明のきめ細かい変化を改善する。
QHRはクエリタイプに応じて検索パイプラインを動的に最適化し、マルチモーダルおよびマルチビュー入力への効率的な適応を可能にする。
5つの公開データセットと2つの評価プロトコルに関する大規模な実験により、FitProはインタラクティブ検索における既存のメソッドの一般化制限とセマンティックモデリング制約を著しく克服し、実用的なデプロイメントの道を開いた。
コードとデータはhttps://github.com/ lilo4096/FitPro-Interactive-Person-Retrievalで公開される。
関連論文リスト
- Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。