論文の概要: T2I-VeRW: Part-level Fine-grained Perception for Text-to-Image Vehicle Retrieval
- arxiv url: http://arxiv.org/abs/2605.06012v1
- Date: Thu, 07 May 2026 11:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.713171
- Title: T2I-VeRW: Part-level Fine-grained Perception for Text-to-Image Vehicle Retrieval
- Title(参考訳): T2I-VeRW:テキスト・画像検索のための部分レベルきめ細粒度知覚
- Authors: Xiao Wang, Ziwen Wang, Weizhe Kong, Wentao Wu, Yuehang Li, Aihua Zheng, Chenglong Li, Jin Tang,
- Abstract要約: Vehicle Re-IDは、重複しないカメラによって撮影された画像から、与えられたクエリに最もよく似た画像を取得することを目的としている。
我々はPFCVRを提案する。PFCVRは、テキストから画像への車両再識別のための細粒度クロスモーダル車両検索モデルである。
- 参考スコア(独自算出の注目度): 27.508200973079507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicle Re-identification (Re-ID) aims to retrieve the most similar image to a given query from images captured by non-overlapping cameras. Extending vehicle Re-ID from image-only queries to text-based queries enables retrieval in real-world scenarios where only a witness description of the target vehicle is available. In this paper, we propose PFCVR, a Part-level Fine-grained Cross-modal Vehicle Retrieval model for text-to-image vehicle re-identification. PFCVR constructs locally paired images and texts at the part level and introduces learnable part-query tokens that aggregate both part-specific and full-sentence context before aligning with visual part features. On top of this explicit local alignment, a bi-directional mask recovery module lets each modality reconstruct its masked content under the guidance of the other, implicitly bridging local correspondences into global feature alignment. Furthermore, we construct a new large-scale dataset called T2I-VeRW, which contains 14,668 images covering 1,796 vehicle identities with fine-grained part-level annotations. Experimental results on the T2I-VeRI dataset show that PFCVR achieves 29.2\% Rank-1 accuracy, improving over the best competing method by +3.7\% percentage points. On the newly proposed T2I-VeRW benchmark, PFCVR achieves 55.2\% Rank-1 accuracy, outperforming a comprehensive set of recent state-of-the-art methods. Source code will be released on https://github.com/Event-AHU/Neuromorphic_ReID
- Abstract(参考訳): 車両再識別(Re-ID)は、重複しないカメラで撮影された画像から、与えられたクエリに最もよく似た画像を取得することを目的としている。
画像のみのクエリからテキストベースのクエリへのRe-IDの拡張により、対象車両の目撃者記述のみが利用可能な現実シナリオでの検索が可能になる。
本稿では,PFCVRについて述べる。PFCVRは,テキストから画像への車両再識別のための細粒度クロスモーダル車両検索モデルである。
PFCVRは、部分レベルでローカルにペアリングされたイメージとテキストを構築し、視覚的特徴と整合する前に、部分固有のコンテキストと全文の両方を集約する学習可能な部分クエリトークンを導入している。
この明示的な局所的なアライメントに加えて、双方向マスクリカバリモジュールは、各モードが他の部分の指示の下でマスクされたコンテンツを再構築し、暗黙的に局所的な対応をグローバルな特徴アライメントに組み込む。
さらに,T2I-VeRWと呼ばれる大規模データセットを構築した。
T2I-VeRIデータセットの実験結果は、PFCVRが29.2\%のランク-1の精度を達成し、最高の競合法よりも+3.7\%のポイントで改善したことを示している。
新たに提案されたT2I-VeRWベンチマークでは、PFCVRは55.2\% Rank-1の精度を達成し、最新の最先端手法の包括的なセットを上回っている。
ソースコードはhttps://github.com/Event-AHU/Neuromorphic_ReIDで公開される。
関連論文リスト
- Text-based Aerial-Ground Person Retrieval [55.31140361809554]
本研究はTAG-PR(Text-based Aerial-Ground Person Retrieval)を紹介する。
異質な空中・地上からの人物画像をテキスト記述で検索することを目的としている。
論文 参考訳(メタデータ) (2025-11-11T15:49:04Z) - Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。
セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。
我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-28T12:19:49Z) - Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。
我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。
結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文 参考訳(メタデータ) (2025-05-04T22:18:14Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.13782704236074]
視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。