論文の概要: CLIPVehicle: A Unified Framework for Vision-based Vehicle Search
- arxiv url: http://arxiv.org/abs/2508.04120v1
- Date: Wed, 06 Aug 2025 06:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.569895
- Title: CLIPVehicle: A Unified Framework for Vision-based Vehicle Search
- Title(参考訳): CLIPVehicle: ビジョンベースの自動車検索のための統一フレームワーク
- Authors: Likai Wang, Ruize Han, Xiangqun Zhang, Wei Feng,
- Abstract要約: 二重粒度意味領域アライメントモジュールを含む新しい統合フレームワークであるCLIPVehicleを提案する。
また、実世界のデータセットCityFlowVSと、車両探索のための2つの合成データセットSynVS-DayとSynVS-Allを含む、新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 13.316099306091239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicles, as one of the most common and significant objects in the real world, the researches on which using computer vision technologies have made remarkable progress, such as vehicle detection, vehicle re-identification, etc. To search an interested vehicle from the surveillance videos, existing methods first pre-detect and store all vehicle patches, and then apply vehicle re-identification models, which is resource-intensive and not very practical. In this work, we aim to achieve the joint detection and re-identification for vehicle search. However, the conflicting objectives between detection that focuses on shared vehicle commonness and re-identification that focuses on individual vehicle uniqueness make it challenging for a model to learn in an end-to-end system. For this problem, we propose a new unified framework, namely CLIPVehicle, which contains a dual-granularity semantic-region alignment module to leverage the VLMs (Vision-Language Models) for vehicle discrimination modeling, and a multi-level vehicle identification learning strategy to learn the identity representation from global, instance and feature levels. We also construct a new benchmark, including a real-world dataset CityFlowVS, and two synthetic datasets SynVS-Day and SynVS-All, for vehicle search. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods of both vehicle Re-ID and person search tasks.
- Abstract(参考訳): 車両は、現実世界でもっとも一般的で重要な物体の1つであり、コンピュータビジョン技術を用いた車両検出や車両再識別など、顕著な進歩を遂げた研究である。
監視ビデオから関心のある車両を検索するために、既存の手法はまずすべての車両のパッチを事前に検出し保存し、その後、資源集約的で実用的ではない車両の再識別モデルを適用する。
本研究は,車両探索のための共同検出と再同定を実現することを目的としている。
しかし、共有車両の共通性に焦点を当てた検出と、個々の車両の特異性に焦点を当てた再識別の相反する目的は、モデルがエンドツーエンドシステムで学習することを困難にしている。
そこで本研究では,車両識別モデルにVLM(Vision-Language Models)を利用する2つの粒度意味領域アライメントモジュールを含むCLIPVehicleと,グローバル,インスタンス,特徴レベルから識別表現を学習するための多段階車両識別学習戦略を提案する。
また、実世界のデータセットCityFlowVSと、車両探索のための2つの合成データセットSynVS-DayとSynVS-Allを含む、新しいベンチマークを構築した。
その結果,本手法は車載Re-IDと人検索の両課題において,最先端の手法よりも優れていた。
関連論文リスト
- VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification [27.075761782915496]
本稿では,ターゲットポーズにおける多数の車両画像の合成を提案する。
異なる交通監視カメラで同じ車両のペアのデータが現実世界では利用できない可能性があることを考慮し、VagerGANを提案する。
実データと合成データの特徴分布の違いから,効率的な特徴レベル融合によるJML(Joint Metric Learning)を提案する。
論文 参考訳(メタデータ) (2023-11-27T19:34:04Z) - Multi-query Vehicle Re-identification: Viewpoint-conditioned Network,
Unified Dataset and New Metric [30.344288906037345]
マルチクエリー車両Re-IDと呼ばれる,より現実的でアクセスしやすいタスクを提案する。
我々は、異なる車両視点からの補完情報を適応的に組み合わせた、新しい視点条件付きネットワーク(VCNet)を設計する。
次に、実生活の交通監視システムから6142台のカメラで撮影された、統一されたベンチマークデータセットを作成します。
第3に,クロスシーン認識能力を測定する平均クロスシーン精度(mCSP)と呼ばれる新しい評価指標を設計する。
論文 参考訳(メタデータ) (2023-05-25T06:22:03Z) - Discriminative-Region Attention and Orthogonal-View Generation Model for
Vehicle Re-Identification [7.5366501970852955]
複数の課題は、視覚に基づく車両のRe-ID手法の適用を妨げる。
提案したDRAモデルでは,識別領域の特徴を自動的に抽出し,類似した車両を識別することができる。
また、OVGモデルでは、入力ビュー機能に基づいてマルチビュー機能を生成し、視点ミスマッチの影響を低減することができる。
論文 参考訳(メタデータ) (2022-04-28T07:46:03Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle
Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。
既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。
Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文 参考訳(メタデータ) (2021-03-09T11:51:09Z) - Trends in Vehicle Re-identification Past, Present, and Future: A
Comprehensive Review [2.9093633827040724]
車両リアイドは、複数のカメラネットワークビューでターゲット車両オーバーオーバーラップビューにマッチします。
本稿では,各種車両のre-id技術,手法,データセット,および各種方法論の比較を包括的に記述する。
論文 参考訳(メタデータ) (2021-02-19T05:02:24Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z) - The Devil is in the Details: Self-Supervised Attention for Vehicle
Re-Identification [75.3310894042132]
車両識別のための自己監督的注意(SAVER)は、車両固有の識別特徴を効果的に学習するための新しいアプローチである。
我々は,SAVERがVeRi, VehicleID, Vehicle-1M, VERI-Wildのデータセットに挑戦する際の最先端性を改善することを示す。
論文 参考訳(メタデータ) (2020-04-14T02:24:47Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。