論文の概要: Generalizable Object Re-Identification via Visual In-Context Prompting
- arxiv url: http://arxiv.org/abs/2508.21222v1
- Date: Thu, 28 Aug 2025 21:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.879266
- Title: Generalizable Object Re-Identification via Visual In-Context Prompting
- Title(参考訳): Visual In-Context Promptingによる一般化可能なオブジェクト再認識
- Authors: Zhizhong Huang, Xiaoming Liu,
- Abstract要約: Visual In-Context Prompting (VICP) は、目に見えるカテゴリで訓練されたモデルが、目に見えない新しいカテゴリに直接一般化できる新しいフレームワークである。
VICPは、タスク固有のプロンプトを通じて、少数ショットの陽性/負のペアからセマンティックアイデンティティルールをシナジする。
ShopID10Kと多種多様なReIDベンチマークの実験により、VICPは目に見えないカテゴリに対して明確なマージンでベースラインを上回ります。
- 参考スコア(独自算出の注目度): 19.816562822405157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current object re-identification (ReID) methods train domain-specific models (e.g., for persons or vehicles), which lack generalization and demand costly labeled data for new categories. While self-supervised learning reduces annotation needs by learning instance-wise invariance, it struggles to capture \textit{identity-sensitive} features critical for ReID. This paper proposes Visual In-Context Prompting~(VICP), a novel framework where models trained on seen categories can directly generalize to unseen novel categories using only \textit{in-context examples} as prompts, without requiring parameter adaptation. VICP synergizes LLMs and vision foundation models~(VFM): LLMs infer semantic identity rules from few-shot positive/negative pairs through task-specific prompting, which then guides a VFM (\eg, DINO) to extract ID-discriminative features via \textit{dynamic visual prompts}. By aligning LLM-derived semantic concepts with the VFM's pre-trained prior, VICP enables generalization to novel categories, eliminating the need for dataset-specific retraining. To support evaluation, we introduce ShopID10K, a dataset of 10K object instances from e-commerce platforms, featuring multi-view images and cross-domain testing. Experiments on ShopID10K and diverse ReID benchmarks demonstrate that VICP outperforms baselines by a clear margin on unseen categories. Code is available at https://github.com/Hzzone/VICP.
- Abstract(参考訳): 現在のオブジェクト再識別(ReID)手法は、一般化が欠如し、新しいカテゴリのラベル付きデータを要求するドメイン固有モデル(人や車など)を訓練する。
自己教師付き学習は、インスタンスワイドの不変性を学習することでアノテーションの必要性を減らすが、ReIDにとって重要な \textit{identity-sensitive} 機能を取得するのに苦労している。
本稿では,視覚的インテクスト・プロンプティング(VICP)を提案する。視覚的インテクスト・プロンプティング(visual In-Context Prompting, VICP)は,視覚的カテゴリーで訓練されたモデルが,パラメータ適応を必要とせず,プロンプトとして \textit{in-context example} のみを用いることで,見知らぬ新しいカテゴリに直接一般化できる新しいフレームワークである。
VICP は LLM とビジョンファウンデーションモデル~(VFM): LLM はタスク固有のプロンプトを通じて少数ショットの正/負のペアからセマンティックアイデンティティルールを推論し、次に VFM (\eg, DINO) を誘導して \textit{dynamic visual prompts} を介してID識別特徴を抽出する。
LLMから派生したセマンティックな概念をVFMの事前訓練された先行概念と整合させることで、VICPは新たなカテゴリへの一般化を可能にし、データセット固有の再トレーニングの必要性を排除した。
評価を支援するため,eコマースプラットフォームから10KオブジェクトインスタンスのデータセットであるShopID10Kを紹介した。
ShopID10Kと多種多様なReIDベンチマークの実験により、VICPは目に見えないカテゴリに対して明確なマージンでベースラインを上回ります。
コードはhttps://github.com/Hzzone/VICPで入手できる。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。
本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。
我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-06T01:42:28Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection [21.091101582856183]
本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。
まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。
我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:06:29Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Test-Time Adaptation for Visual Document Understanding [34.79168501080629]
DocTTAは文書に対する新しいテスト時間適応手法である。
未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。
各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2022-06-15T01:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。