論文の概要: FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World
- arxiv url: http://arxiv.org/abs/2509.16674v2
- Date: Tue, 04 Nov 2025 06:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.436984
- Title: FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World
- Title(参考訳): FitPro:オープンワールドにおけるインタラクティブテキストベースの歩行者検索のためのゼロショットフレームワーク
- Authors: Zengli Luo, Canlong Zhang, Xiaochun Lu, Zhixin Li,
- Abstract要約: テキストベースのPedestrian Retrieval (TPR)は、自然言語の記述に従って視覚的なシーンで特定の歩行者を検索する。
セマンティック理解とクロスシーン適応性を強化したオープンワールド対話型ゼロショットTPRフレームワークFitProを提案する。
- 参考スコア(独自算出の注目度): 13.089848592467675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based Pedestrian Retrieval (TPR) deals with retrieving specific target pedestrians in visual scenes according to natural language descriptions. Although existing methods have achieved progress under constrained settings, interactive retrieval in the open-world scenario still suffers from limited model generalization and insufficient semantic understanding. To address these challenges, we propose FitPro, an open-world interactive zero-shot TPR framework with enhanced semantic comprehension and cross-scene adaptability. FitPro has three innovative components: Feature Contrastive Decoding (FCD), Incremental Semantic Mining (ISM), and Query-aware Hierarchical Retrieval (QHR). The FCD integrates prompt-guided contrastive decoding to generate high-quality structured pedestrian descriptions from denoised images, effectively alleviating semantic drift in zero-shot scenarios. The ISM constructs holistic pedestrian representations from multi-view observations to achieve global semantic modeling in multi-turn interactions, thereby improving robustness against viewpoint shifts and fine-grained variations in descriptions. The QHR dynamically optimizes the retrieval pipeline according to query types, enabling efficient adaptation to multi-modal and multi-view inputs. Extensive experiments on five public datasets and two evaluation protocols demonstrate that FitPro significantly overcomes the generalization limitations and semantic modeling constraints of existing methods in interactive retrieval, paving the way for practical deployment.
- Abstract(参考訳): テキストベースのPedestrian Retrieval (TPR)は、自然言語の記述に従って視覚的なシーンで特定の歩行者を検索する。
既存の手法は制約された設定下で進歩を遂げているが、オープンワールドシナリオにおける対話的検索は、モデル一般化の制限と意味理解の不十分さに悩まされている。
これらの課題に対処するため、我々は、セマンティック理解とクロスシーン適応性を強化したオープンワールドインタラクティブなゼロショットTPRフレームワークであるFitProを提案する。
FitProには、FCD(Feature Contrastive Decoding)、ISM(Incrmental Semantic Mining)、QHR(Query-aware Hierarchical Retrieval)の3つの革新的なコンポーネントがある。
FCDは、プロンプト誘導されたコントラストデコーディングを統合して、画像から高品質な構造化された歩行者記述を生成し、ゼロショットシナリオにおけるセマンティックドリフトを効果的に緩和する。
ISMは、多視点観測から総合的な歩行者表現を構築し、多方向相互作用におけるグローバルセマンティックモデリングを実現し、視点シフトに対するロバスト性や記述のきめ細かい変化を改善する。
QHRはクエリタイプに応じて検索パイプラインを動的に最適化し、マルチモーダルおよびマルチビュー入力への効率的な適応を可能にする。
5つの公開データセットと2つの評価プロトコルに関する大規模な実験により、FitProはインタラクティブ検索における既存のメソッドの一般化制限とセマンティックモデリング制約を著しく克服し、実用的なデプロイメントの道を開いた。
関連論文リスト
- Chat-Driven Text Generation and Interaction for Person Retrieval [16.448356660477682]
我々は,Multi-Turn Text Generation(MTG)とMulti-Turn Text Interaction(MTI)の2つの補完モジュールを紹介する。
MTGはMLLMとのシミュレートされた対話を通じて豊かな擬似ラベルを生成し、手動による監督なしに細粒度で多様な視覚的記述を生成する。
MTIは動的対話に基づく推論を通じて推論時にユーザクエリを洗練し、曖昧で不完全、曖昧な記述をシステムが解釈し、解決できるようにする。
論文 参考訳(メタデータ) (2025-09-16T04:40:24Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - Multimodal RAG Enhanced Visual Description [3.2771631221674333]
事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-08-06T19:04:38Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。